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本 书 是 基于 北京 斑 步 至 伟 科 技 有 限 公 司 Hadoop 云 计算 一 体 机 [搭配 PC( 个 人 计算 机 ) J ， 
由 北京 林业 大 学 工学 院 与 该 公司 共 建 的 Bamboo 云 计算 与 物 联网 实验 室 共同 编写 而 成 ， 主 要 
介绍 如 何 搭建 Hadoop 平台 并 在 其 上 面 开 发 并 部 署 云 应 用 。 本 书 主要 由 李宁 、 王 东 亮 编著 ， 
北京 斑 步 至 伟 科 技 有 限 公 司 的 工程 师 对 本 书 中 的 软件 实例 开发 和 验证 进行 了 大 量 、 细 致 的 工 
作 ， 北 京 林 业 大 学 工学 院 杨 导 吴 老师 、 即 将 留 校 参加 工作 的 研究 生 吴 健 等 人 参与 了 一 体 机 的 
开发 与 软件 测试 ， 实 验 室 全 体 成 员 的 共同 努力 确保 了 本 书 的 质量 。 

近 几 年 来 云 计算 经 过 各 大 厂商 的 推广 ， 很 多 读者 对 于 Hadoop 和 云 计算 已 经 有 了 了 一定 的 
了 解 ， 目 前 有 相当 一 批 人 在 从 事 这 方面 的 工作 ， 一 些 高 校 也 开始 有 这 方面 的 诛 程 和 讲座 。 

本 书 主要 介绍 在 “ 裸 机 ”的 状态 下 ， 如 何 搭建 Hadoop 平台 。 通 过 由 浅 入 深 的 介绍 ， 引 
MEFA Hadoop 以 及 云 计算 的 大 门 。 全 书 从 云 计算 、Hadoop 以 及 Linux 的 理论 知识 开始 
介绍 ， 到 集群 的 搭建 、 项 目的 设计 和 应 用 ， 贯 穿 了 Hadoop 学 习 的 整个 过 程 。 通 过 学 习 本 书 ， 
读者 基本 上 可 以 熟悉 市 场 上 各 种 云 平 台 开 发 过 程 和 设计 思想 。 

本 书 各 章 世 内 容 主 要 安排 如 下 : 

第 1 篇 理论 部 分 

第 1 章 : 云 计 算 概 念 、 发 展现 状 和 实现 机 制 ， 目 前 各 大 厂商 的 云 计 算 概 述 ; 

2n DEM Hadoop 人 和合 介 、 架 构 和 核心 搁 术 HDFS 以 及 MapReduce; 

第 3 3. Linux 操作 系统 的 介绍 和 命令 的 使 用 。 

第 2 篇 基础 实践 部 分 

第 4 草 : CentOS 系统 的 安装 和 集群 的 搭建 过 程 ; 

第 5 di. 熟悉 Hadoop 集群 的 第 用 命令 并 学 会 使 用 Web 方式 浏览 集群 ; 

第 6 章 : Hadoop 内 部 的 管理 应 用 、 系 统 体检 权限 管理 ; 

第 7 GE. 基础 开发 实验 : 包含 HDFS 上 传 文件 、 浏 览 文件 和 目录 、 打 开 、 下 载 和 删除 文件 ; 

第 8 草 : 局 级 开发 实验 : 包含 数据 去 重 、 排 序 、 平 均 成 绩 和 单 表 关联 ， 都 是 基于 Ma- 
pReduce 的 。 

第 3 篇 项目 实 训 部 分 

BOE. 个 人 存储 私有 云 ， 主 要 实现 云 文件 的 存储 、 浏 览 和 删除 ; 

第 10 章 : 气象 数据 分 析 云 ， 主 要 实现 对 气象 数据 的 分 析 和 计算 给 出 表格 ; 

第 11 草 : 微 信 人 物 关 系 云 ， 主 要 根据 上 传 分 析 条 件 来 对 人 物 关 系 进行 分 析 ; 

第 12 章 : wR, ESCM TAB ERAS, 并且 提供 查询 的 功能 ; 

第 13 章 : 物 联 网 与 云 计算 ， 主 要 实现 智能 分 配 快 递 的 功能 。 

由 于 作者 水 平 有 限 ， 本 书 难 免 存 在 一 些 错误 和 不 足 ， 欢 迎 大 家 指正 。 
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15: 云 计 算 理论 


1.1 去 计算 的 概念 


云 计算 (Cloud Computing) 首先 是 基于 互联 网 的 ， 并 且 是 对 在 互联 网 上 的 服务 进行 使 用 、 
增加 和 交付 的 ， 这 个 资源 一 般 是 虚拟 化 并 且 动 态 易 扩展 的 。 云 其 实 就 是 对 网 络 以 及 互联 网 资 
源 的 一 种 形象 说 法 。 在 过 去 ,很 多 人 画图 会 使 用 云 来 表示 电信 网 ， 后 来 出 现 了 互联 网 还 有 对 
一 些 底层 的 基础 染 构 的 形象 描述 。 狭 义 云 计 算是 指 一 种 IT 基础 设施 的 交付 和 使 用 模式 ， 指 
通过 互联 网 以 按 需 、 易 扩展 的 方式 获得 所 需 资源 ; 广义 云 计 算 指 服务 的 交付 和 使 用 模式 ， 指 
通过 互联 网 以 按 需 、 吻 扩展 的 方式 获得 所 需 服务 。 这 种 服务 可 以 是 YT 资源 和 应 用 软件 、 
切 和 互联 网 相关 资源 ， 也 可 是 其 他 种 类 的 服务 。 它 意味 看 计算 能 力也 可 作为 一 种 商品 通过 互 
联网 进行 流通 。 

什么 是 云 计 算 ? 云 计 算是 一 种 基于 互联 网 的 超级 计算 模式 ， 在 远程 的 数据 中 心 ， 几 万 台 
甚至 几 千 万 人 台 计 算 机 和 服务 需 连 接 成 一 片 。 因 此 ， 云 计算 甚至 可 以 让 人 体验 每 秒 超过 10 万 
亿 次 的 运算 能 力 ， 如 此 强大 的 运算 能 力 几 乎 无 所 不 能 。 用 户 通过 计算 机 、 便 携 式 计算 机 、 手 
机 每 方式 接 入 数据 中 心 ， 按 各 日 的 需求 进行 存储 和 运算 。 四 其 比较 成 熟 而 实用 的 云 计算 产品 
WF: IBM 公司 的 赣 云 、 亚 马 逊 公司 的 Amazon EC2 、 谷 歌 公 司 的 Google App Engine、 微软 
公司 的 Windows Azure, 


1.2. 云 计 算 发 展现 状 


1. 云 计算 发 展现 状 

云 计 算 作 为 业界 热点 ， 近 年 来 世界 各 国 对 于 它 的 研究 和 应 用 方兴未艾 ， 许 多 政府 部 门 和 
著名 公司 在 人 研发 与 应 用 云 计 算 的 过 程 中 作出 了 大 量 的 工作 和 努力 。 

(1) 云 计算 在 国外 的 发 展 

去 计算 与 网 络 密 不 可 分 。 云 计算 的 原始 含义 是 通过 互联 网 提供 计算 能 力 。 云 计算 的 起 源 
跟 亚马逊 和 谷歌 两 个 公司 有 十 分 密切 的 关系 ， 它 们 最 早 使 用 到 了 "Cloud Computing” 的 表述 
方式 。 目 前 美国 公开 宣布 进入 或 文 持 云 计 算 技术 开发 的 业界 巨头 包括 微软 、 谷 歌 、IBM 、 亚 
tfh | Netsuite, NetApp, Adobe 等 公司 。 

谷歌 公司 是 云 计算 的 提出 者 。2006 年 ， 谷 歌 公司 局 动 了 “Google101” 计 划 ， 引 导 大 学 
生 们 进行 “ 云 ” 系 统 的 编程 开发 。 多 年 的 搜索 引擎 技术 的 积 紫 成 末 使 谷歌 公司 在 云 计 算 技 
术 上 处 于 领先 的 地 位 ,不仅 提 供 在 线 应 用 ， 还 希望 发 挥 目 身 的 数据 库 系 统 优势 ， 成 为 在 线 应 
用 的 统一 平台 。 谷 歌 公司 以 发 表 学 术 论 文 的 形式 公开 了 其 云 计 算 三 大 法 宝 : GFS Map/Re- 
duce 和 BigTable， 并 在 美国 和 我 国 等 国 高 校 开 设 云 计算 编程 诛 程 。 

微软 公司 于 2008 年 10 月 推出 了 Windows Azure 操作 系统 ， 这 个 系统 作为 微软 公司 云 计 


E 
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算计 划 的 服务 需 端 操作 系统 (Cloud OS) 为 广大 开发 者 提供 服务 。 微 软 公司 拥有 全 世界 数 以 亿 
TTA) Windows 操作 系统 用 户 果 面 和 浏览 需 ，Azure( 蓝 天) 试图 通过 在 互联 网 架构 上 打造 新 的 
云 计算 平台 ， 让 Windows 操作 系统 由 PC( 个 人 计算 机 ) 延 伸 到 “蓝天 ”上 。 

IBM 公司 从 企业 内 部 需求 的 逐渐 上 升 出 发 ， 在 2007 年 11 月 提出 了 “ 蓝 云 ”计划 ， 推 出 
共有 云 和 私有 云 的 概念 。IBM 公司 提出 私有 云 解决 方案 是 为 减少 诸如 数据 、 信 息 安 全 等 共有 
云 现存 的 问题 ， 从 而 抢占 企业 云 计算 市 场 。 依 托 IBM 公司 在 服务 天 领域 的 传统 优势 ，IBM 
公司 成 为 目前 惟一 一 个 提供 从 人 硬件、 软件 到 服务 全 部 目 主 生产 的 公司 。 

2008 年 7 月 ， 雅 虎 、 囊 普 和 英特尔 公司 联合 宣布 将 建立 全 球 性 的 开源 云 计算 研究 测试 
W, PKN Open Cirrus， 疏 励 开 展 云 计算 、 服 务 和 数据 中 心 管理 等 领域 中 各 方面 的 研究 。 

平 果 公司 是 云 计算 领域 的 一 位 积极 参与 者 。 从 近年 来 推出 的 iTunes 服务 ， 到 Mobile Me 
服务 ， 到 收购 在 线 音 乐 服务 商 Lala, 再 到 最 近 在 美国 北 卡 羔 罗 纳 州 投资 10 亿美 元 建立 新 数 
据 中 心 的 计划 ， 无 不 显示 其 进 车 云 计 算 领域 的 巨大 决心 。 

这 些 国际 知名 大 公司 在 全 世界 建造 了 庞大 的 云 计算 中 心 。 壁 如 ; 谷歌 公司 的 搜索 引擎 分 
布 于 200 多 个 站 点 、 超 过 100 万 全 服 务 融 文 返 ， 而 且 设施 效 量 正在 迅猛 增长 。 

(2) 云 计算 在 国内 的 发 展 

日 前 我 国 云 计算 的 讨论 多 数 集 中 在 早期 云 计算 的 概念 、 拉 术 和 模式 上 。 早 期 的 云 计算 是 
一 种 动态 的 、 多 扩展 的 、 通 过 互联 网 提供 虚拟 化 全 (信息 技术 ) 资 源 和 应 用 的 一 种 计算 模式 。 
用 户 不 需要 了 解 云 技术 内 部 的 细节 ， 也 不 必 具 有 云 内 部 的 专业 知识 ， 更 不 需要 和 直接 参与 、 投 
和 入、 建设、 维护 和 控制 就 能 直接 按 需 使 用 并 按 用 量 付费 。 

2008 Æ, IBM 公司 在 无 锡 建立 了 我 国 第 一 个 云 计算 中 心 ， 在 北京 IBM 中 国 创新 中 心 
建立 了 第 二 个 云 计算 中 心 一 一 IBM 大 中 华 区 云 计算 中 心 。2009 年 初 ， 在 南京 建立 了 国内 
首 个 “电子 商务 云 计算 中 心 ” 。 世 纪 互 联 推出 “CloudEx” 产 品 线 ， 包 括 完 整 的 互联 网 主 
机 服务 “CloudEx Computing Service”、 基 于 在 线 存储 虚拟 化 的 “CloudEx Storage Service” 
等 云 计算 服务 。 

随 着 云 计算 的 升温 ， 国 内 的 电信 运营 商 也 痢 积 极 投入 到 云 计算 的 研究 中 ， 以 期 通过 云 计 
算 技 术 促进 网 络 结构 的 优化 和 整合 ， 寻 找到 新 的 屈 利 机 会 和 利润 增长 点 ， 以 实现 回信 息 服 务 
企业 的 转型 。 中 国 移动 公司 推出 了 “大 云 ”(Big Cloud) 云 计算 基础 服务 平台 ， 中 国电 信 公 
司 推出 了 “e 云 ” 云 计 算 平 台 ， 中 国联 通 公 司 则 推出 了 “互联 云 ” 和 平台。 

我 国企 业 创造 了 了 “ 云 安全 ”概念 ， 通 过 网 状 的 大 量 客户 端 对 网 络 中 软件 行为 的 异 稼 监 
测 ， 获 取 互 联网 中 木马 、 亚 意 程 序 的 最 新 信息 ， 在 服务 从 端 进行 目 动 分 析 和 处 理 ， 再 把 解决 
方案 分 发 到 客户 问 。 珊 星 、 趋 势 等 企业 都 推出 了 云 安全 解决 方案 。 

随 看 云 计 算 的 发 展 ， 互 联网 的 功能 越 来 越 强 大 ， 用 户 可 以 通过 云 计算 在 互联 网 上 处 理 庞 
大 的 数据 和 获取 所 需 的 信息 。 从 云 计 算 的 发 展现 状 来 看 ， 未 来 云 计 算 的 发 展会 加 构建 大 规模 
的 能 够 与 应 用 程序 密切 结合 的 底层 基础 设施 的 方 回 发展 。 不 断 创 建新 的 云 计算 应 用 程序 ， 为 
用 户 提 供 更 多 、 更 完善 的 互联 网 服务 也 可 作为 云 计 算 的 一 个 发 展 方向 。 

2. 云 计算 实现 机 制 

由 于 云 计 算 分 为 IaaS( 基础 设施 即 服 务 )、PaaS( 平 台 即 服务 ) 和 SaaS( 软件 即 服 务 ) 三 种 
类 型 ， 不 同 的 广 家 又 提供 了 不 同 的 解决 方案 ， 目 前 还 没有 一 个 统一 的 技术 体系 结构 ， 对 读者 
了 解 云 计算 的 原理 构成 了 障碍 。 为 此 ， 本 书 综 合 不 同 厂 家 的 方案 ,构造 了 一 个 供 商 枞 的 云 计 
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算 体系 结构 。 这 个 体系 结构 如 图 1-1 所 示 ， 它 概括 了 不 同 解决 方案 的 主要 特征 ， 每 一 种 方案 
或 许 只 实现 了 其 中 部 分 功能 ， 或 许 也 还 有 部 分 相对 次 要 功能 尚未 概括 进来 。 

SOA 构建 层 


管理 中 间 件 层 
用 户 管理 用 户 环境 配置 | 用 户 交 互 管理 
安 | 访问 授权 
pat ZH | 
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图 1-1 云 计算 技术 体系 结构 

云 计算 技术 体系 结构 分 为 4 层 : 物理 资源 层 、 资 源 池 层 、 管 理 中 间 件 层 和 SOA( 面 向 服 
务 的 体系 结构 ) 构 建屋 ， 如 图 1-1 所 示 。 物 理 资 源 层 包 括 计 算 机 、 存 储 希 、 网 络 设施 、 数 据 
库 和 软件 等 ， 资 源 池 层 是 将 大 量 相 同类 型 的 资源 构成 同 构 或 接近 同 构 的 资源 池 ， 如 计算 资源 
池 、 数 据 资源 池 等 。 构 建 资源 池 层 更 多 是 物理 资源 的 集成 和 管理 工作 ， 例 如 研究 在 一 个 标准 
集装箱 的 空间 如 何 装 下 2000 个 服务 硕 、 解 决 散热 和 故障 节点 蔡 换 的 问题 并 降低 能 耗 ; 管理 
中 间 件 层 负 员 对 云 计 算 的 资源 进行 管理 ， 并 对 众多 应 用 任务 进行 调度 ,使 资源 能 够 高 效 、 安 
全 地 为 应 用 提供 服务 ，SOA 构建 层 将 云 计 算 能 力 封 装 成 标准 的 Web Services 服务 ， 并 纳入 到 
SOA 体系 进行 管理 和 使 用 ， 包括 服务 注册 、 查 找 、 访 问 和 构建 服务 工作 流 和 等。 管理 中 间 件 
层 和 资源 池 层 是 云 计算 技术 的 最 关键 部 分 ，SOA 构建 层 的 功能 更 多 地 依靠 外 部 设施 提供 。 

云 计 算 的 管理 中 间 件 层 负责 资源 管理 、 任 务 管 理 、 用 户 管理 和 安全 管理 等 工作 。 资 源 管 
理 人 负责 均衡 地 使 用 云 资源 扩 点 ， 检 测 市 点 的 故障 并 试图 恢复 或 屏蔽 之 ， 并 对 资源 的 使 用 情况 
进行 监视 统计 ; 任务 管理 负责 执行 用 户 或 应 用 提交 的 任务 ， 包 括 完 成 用 户 任务 映像 (Image ) 
的 部 着 和 管理 、 任 务 调度 、 任 务 执行 、 任 务 生命 期 管理 等 ;用户 管 理 是 实现 云 计 算 商 业 模式 
的 一 个 必 不 可 少 的 环节 ， 包 括 提供 用 户 交 互 接口 、 管 理 和 识别 用 户 吴 份 、 创 建 用 户 程序 的 执 
行 环境 、 对 用 户 的 使 用 进行 计 费 等 ;安全 管理 保障 云 计 算 设 施 的 整体 安全 ， 包 括 喘 份 认证 、 
访问 授权 、 丝 合 防护 和 安全 审计 等 。 

基于 上 述 体系 结构 ， 本 书 以 aas 云 计算 为 例 ， 简 述 云 计 算 的 实现 机 制 ， 如 图 1-2 所 示 。 

用 户 交 互 接口 回应 用 以 Web Services 方式 提供 访问 接口 ， 获 取 用 户 需 求 。 服 务 目 录 是 用 
户 可 以 访问 的 服务 清单 。 系 统管 理 模块 负责 管理 和 分 配 所 有 可 用 的 资源 ， 其 核心 是 负载 均 
衡 。 配 置 工具 负责 在 分 配 的 方 点 上 准备 任务 运行 环境 。 监 视 统计 模块 人 负 贡 监视 市 点 的 运行 状 
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图 1-2 简化 的 Iaas 实现 机 制 
态 ， 并 完成 用 户 使 用 市 点 情况 的 统计 。 执 行 过 程 并 不 复杂 : 用 户 交 互 接 口 允许 用 户 从 目录 中 
选取 并 调用 一 个 服务 。 该 请 求 传 递 给 系统 管理 模块 后 ， 它 将 为 用 户 分 配 恰 当 的 资源 ， 然 后 调 
用 配置 工具 来 为 用 户 准备 运行 环境 。 


L3 网 格 计算 与 云 计算 


与 云 计算 不 同 ， 网 格 计 算 已 经 是 一 个 老 词 了 。 当 云 计 算 “ 大 红 大 紫 ” 的 时 候 ， 人 们 很 
少 提 及 网 格 计算 ， 不 过 网 格 计算 与 云 计算 有 着 很 次 的 渊源 。 

网 格 计算 (Grid Computing ) 是 通过 利用 大 量 异 构 计 算 机 (通常 为 更 面 ) 的 未 用 资源 | CPU 
(中 央 处 理 硕 ) 周 期 和 磁盘 存储 ] ， 将 其 作为 般 人 在 分 布 式 电信 基础 设施 中 的 一 个 虚拟 的 计算 
机 集群 ， 为 解决 大 规模 的 计算 问题 提供 了 一 个 模型 。 网 格 计算 的 焦点 放 在 文 持 览 管理 域 计 算 
的 能 力 上 ， 运 用 平行 运算 ,看重 于 企业 间或 跨 企 业 的 资源 充分 运用 ， 共 同 解 决 困 难 的 运算 任 
务 。 这 使 它 与 传统 的 计算 机 集群 或 传统 的 分 布 式 计算 相 区 别 。 

云 计算 (Cloud Computing) 是 一 种 基于 互联 网 的 计算 新 方式 ， 通 过 互联 网 上 异 构 、 自 治 的 
服务 为 个 人 和 企业 用 户 提 供 按 需 即 取 的 计算 。 由 于 资源 是 在 互联 网 上 ， 而 在 计算 机 流程 图 
中 ， 互 联网 常 以 一 个 云 状 图 案 来 表示 ， 因 此 可 以 形象 地 类 比 为 云 ,，“ 云 ”同时 也 是 对 底层 基 
人 础 设施 的 一 种 抽象 概念 。 

云 计算 的 资源 是 动态 多 扩展 而 且 虚 拟 化 的 ， 通过 互联 网 提供 。 终 端 用 户 不 需要 了 解 
“ 云 ” 中 基础 设施 的 细 市 ， 不 必 上 共有 相应 的 专业 知识 ， 也 无 害 和 直接 进行 控制 ， 只 关注 目 己 在 
正和 需要 什么 样 的 资源 以 及 如 何 通 过 网 络 来 得 到 相应 的 服务 。 虽 然 云 计算 源 日 平行 运算 的 技 
AR, 不 脱离 网 格 计算 的 概念 ， 但 是 云 计算 更 专注 于 数据 的 处 理 。 

云 计 算 其 实质 还 是 与 以 往 各 类 计算 机 运行 的 基本 过 程 一 样 : 由 输入 喘 输 入 数据 ， 经 数据 
处 理 后 ， 再 由 输出 端 输出 处 理 后 的 数据 。 云 计算 与 网 格 计算 的 最 大 差 寞 在 于 计算 量 ， 云 计算 
大 都 以 单一 主机 服务 用 户 ， 主 要 仿 问 少量 而 多 次 的 计算 ， 少 次 而 大 量 的 计算 易 使 资源 用 尺 ， 
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致使 其 他 服务 停摆 或 拒绝 服务 ; 网 格 计 算是 以 多 主机 来 做 计算 支持 ， 在 少 次 而 大 量 的 计算 时 
较为 有 效率 ， 在 此 情况 下 ， 网 格 计 算 域内 的 计算 机 资源 可 互相 支持 , 不 会 有 资源 用 尽 的 
顾虑 。 

目前 ， 虽 然 云 计算 的 概念 还 没有 统一 ， 但 云 计 算 已 经 在 人 民生 活 中 应 用 。 比 如 ， 公 交 
IC( 集 成 电路 ) 卡 目前 只 是 使 用 了 预购 车 票 球 的 加 减 功 能 ， 如 采 将 IC 卡 上 输入 更 多 的 持 卡 人 
的 信息 ， 再 将 读 卡 右 联 系 起 来 ， 就 可 以 读 出 某 一 时 段 什 么 年 龄 的 人 乘 车 多 、 从 哪里 上 车 哪里 
下 后、 什么 线路 的 车 辆 拥挤 等 大 量 信息 。 

云 计算 是 网 格 计算 、 并 行 计 算 和 分 布 式 计算 的 发 展 ， 或 者 说 是 这 些 计算 机 科学 概念 的 商 
业 实 现 。 云 计算 是 虚拟 化 、 效 用 计算 、Iaas PaaS, SaaS 等 概念 混合 演进 并 跃升 的 结果 。 

1. 云 计 算 

使 用 云 计算 ， 企 业 马 上 就 能 大 幅 提 高 有 目 己 的 计算 能 力 ， 而 不 需要 投资 新 的 基础 设施 、 开 
展 新 的 培训 或 者 购买 新 的 软件 许可 证 。 云 计算 最 适合 希望 将 数据 中 心 基础 设施 全 部 外 包 的 
中 、 小 型 企业 ,或 者 希望 不 用 花费 高 额 成 本 建立 更 大 的 数据 中 心 就 可 获得 更 高 负 丛 能 力 的 大 
型 企业 。 不 论 哪 种 情况 ， 服 务 消费 者 都 在 互联 网 上 使 用 所 需要 的 服务 并 只 为 所 使 用 的 服务 
付费 。 

服务 消费 者 不 用 再 守 在 PC 劳 边 使 用 PC 上 的 应 用 程序 ， 或 者 购买 针对 特定 智能 手机 、 
PDA( 个 人 数字 助理 ) 及 其 他 设备 的 版 本 。 消 费 者 不 必 拥 有 云 中 的 基础 设施 、 软 件 或 平台 ， 
因此 降低 了 前 期 成 本 、 资 本 支出 和 运营 成 本 。 消 费 者 也 不 用 关心 云 中 的 服务 器 和 网 络 怎么 维 
护 。 消 费 者 可 以 访问 任何 地 方 的 多 台 服 务 右 ， 不 需要 知道 使 用 的 是 哪 一 台 服 务 右 以 及 它们 的 
位 置 。 

2. 网 格 计 算 

云 计 算是 从 网 格 计算 演化 来 的 ， 能 够 随 需 应 变 地 提供 资源 。 网 格 计算 可 以 在 云 中 ， 也 可 
以 不 在 ， 这 取决 于 什么 样 的 用 户 在 使 用 它 。 如 采用 户 是 系统 党 理 员 或 集成 黄 ， 他 们 就 会 关心 
如 何 维 护 云 。 他 们 升级 、 安 竣 和 虚拟 化 服务 带 与 应 用 程序 。 如 采用 户 是 消费 者 ， 就 不 必 关 心 
系统 是 如 何 运 行 的 。 

网 格 计算 要 求 软件 的 使 用 可 以 分 为 多 个 部 分 ， 将 程序 的 片段 作为 大 的 系统 映像 传递 给 几 
二 个 计算 机 中 。 网 格 的 一 个 问题 是 如 果 某 个 市 点 上 的 软件 片段 失效 ， 可 能 会 影响 到 其 他 市 点 
上 的 软件 片段 。 如 果 这 个 片段 在 其 他 市 点 上 可 以 使 用 故障 转移 组 件 ， 那 么 就 可 以 绥 解 问题 ， 
但 是 如 果 软 件 片 段 依赖 其 他 软件 片段 完成 一 项 或 多 项 网 格 计算 任务 ， 那 么 问题 仍然 得 不 到 解 
决 。 大 型 系统 镜像 以 及 用 于 操作 和 维护 的 相关 便 件 可 能 造成 很 高 的 货 本 和 运营 文 出 。 

3. 异同 点 

云 计 算 和 网 格 计算 都 是 可 伸缩 的 。 可 伸缩 性 是 通过 独立 运行 在 通过 Web 服务 连接 的 各 
种 操作 系统 上 的 应 用 程序 实例 的 负载 平衡 实现 的 。CPU 和 网 络 带宽 根据 需要 分 配 和 回收 。 
系统 存储 能 力 根据 特定 时 间 的 用 户 数量 、 实 例 的 数量 和 传输 的 数据 量 进 行 调整 。 

两 种 计算 类 型 都 涉及 多 承租 (Multitenancy) 和 多 任务 ， 即 很 多 用 户 可 以 执行 不 同 的 任务 , 
访问 一 个 或 多 个 应 用 程序 实例 。 通 过 大 型 的 用 户 池 共 盏 资源 来 降低 基础 设施 成 本 ， 提 高 峰 信 
负 衍 能 力 。 云 计算 和 网 格 计算 都 提供 了 服务 水 平 协议 (SLA) 以 保证 可 用 性 ， 比 如 99% an 
采 服 务 达 不 到 承诺 的 正常 运行 时 间 ， 消 费 者 将 由 于 数据 延迟 而 得 到 服务 补偿 。 

亚马逊 S3 在 云 中 提供 了 存储 和 数据 检索 Web 服务 。 设 置 在 S3 中 能 够 存储 的 对 象 数 量 
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的 最 大 上 限 ， 可 以 存储 只 有 1B 的 对 象 ， 也 能 存储 5GB 甚至 TB 级 的 对 象 。S3 对 于 对 和 象 的 每 
个 存储 位 置 使 用 “ 桶 ( Bucket)” 作 为 容 副 。 这 些 数 据 采 用 和 亚 马 撑 电子 商务 网 站 相同 的 数 
据 存 储 基础 设施 安全 地 实现 存储 。 

虽然 网 格 中 的 存储 计算 非常 适合 数据 密集 型 存储 ， 但 是 存储 TB 大 小 的 对 象 从 经 济 上 来 
说 不 合适 。 在 数据 网 格 中 ， 分 布 式 数据 的 数量 必须 足够 大 才能 发 挥 最 大 效益 。 

计算 型 网 格 关注 的 是 计算 量 非常 大 的 操作 。 云 计算 中 的 亚马逊 Web Services 提供 了 两 种 
实例 : 标准 和 高 CPU, 
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1.4.1 云 计 算 与 3G 移动 通信 


3G 移动 通信 和 是 第 三 代 移 动 通信 的 缩 略 语 。3G 移动 通信 和 是 指 支 持 高 速 数据 传输 的 蜂 窒 移 
动 通 信 技 术 ， 是 将 无 线 通 信和 与 互联 网 相 结 合 的 新 一 代 通 信 技 术 。 有 目前 国际 电信 联盟 确定 了 三 
A 3G 移动 通信 标准 制式 ，CDMA2000、WCDMA 和 TD - SCDMA。 在 我 国 ， 中 国电 信人 公司 、 
中 国联 通 公 司 、 中 国 移动 公司 分 别 运 营 这 三 种 不 同 制 式 的 3G 移动 通信 了 网络。39G 移动 通信 
的 代表 特征 是 具有 高 速 数据 传输 能 力 ， 能 够 提供 2Mbit/s 以 上 的 带宽 。 因 此 ，396G 移动 通信 
可 以 文 持 语音 、 图 像 、 音 乐 、 视 频 、 网 页 、 电 话 会 议 等 多 种 多 媒体 移动 通信 业务 。 

3G 移动 通信 与 云 计 算是 相互 依存 、 相 互 促进 的 关系 。 一 方面 ，3G 移动 通信 将 为 云 计算 
带 来 数 以 亿 计 的 移动 宽带 用 户 。 到 2009 年 7 月， 全球 移动 用 户 已 达 44 亿 ， 普 及 率 达 65% 。 
3G 移动 通信 用 户 已 超过 5 亿 ， 并 以 惊人 的 速度 增长 。2009 年 是 我 国 的 3G 元 年 ， 当 年 用 户 
数 就 超过 一 千 万 。 这 些 用 户 的 终端 是 手机 、PDA 、 便 携 式 计 算 机 等 ， 计 算 能 力 与 存储 空间 有 
限 ， 却 有 很 强 的 联网 能 力 ， 对 云 计 算 有 着 天 然 的 需求 ， 将 实 实在 在 地 文 持 云 计 算 取 得 商业 成 
H, 另 一 方面 ， 云 计算 能 给 3G 移动 通信 用 户 提 供 更 好 的 用 户 体验 。 云 计算 有 强大 的 计算 能 
力 、 接 近 无 限 的 存储 空间 ， 并 支撑 各 种 各 样 的 软件 和 信息 服务 ， 能 够 为 3G 移动 通信 用 户 提 
供 前 所 未 有 的 服务 体验 。 


1.4.2 云 计算 与 物 联网 


物 联网 即 “ 物 物 相连 的 互联 网 ” 。 物 联网 通过 大 量 分 散 的 射频 识别 、 传 感 硕 ，GPS( 全球 
定位 系统 ) 、 激 光 扫 描 需 等 小 型 设备 ， 将 感知 的 信息 通过 互联 网 传输 到 指定 的 处 理 设施 上 进 
行 智 能 化 处 理 ， 完 成 识别 、 定 人 位、 跟踪、 监控 和 管理 等 工作 。 党 统 地 看 ， 物 联网 属于 传 感 网 
的 范畴 。 其 实 ， 传 感 带 的 应 用 历史 悠久 而 且 相 当 普 及 。 那 为 什么 还 捉 物 联网 的 概念 呢 ? 物 联 
网 是 传 感 网 的 一 个 高 级 阶段 ， 它 通过 大 量 信息 感知 书 点 采集 信息 ， 通 过 互联 网 传输 和 交换 信 
上 县， 通过 强大 的 计算 设施 处 理 信息 ， 然 后 再 对 实体 世界 发 出 反馈 和 控制 信息 。 

物 联 网 根据 其 实质 用 途 可 以 归结 为 三 种 基本 应 用 模式 对 象 的 智能 标签 、 环 境 监 控 和 对 
象 跟踪 与 对 象 的 智能 控制 。 物 联网 基于 云 计算 平 合 和 智能 网 络 ， 可 以 依据 传 感 伏 网 络 用 获取 
的 数据 进行 决策 ， 改 变 对 象 的 行为 进行 控制 和 有 反馈。 

云 计算 服务 物 联 网 的 驱动 力 有 以 下 三 个 方面 : 

1) 需求 驱动 : 海量 数据 的 处 理 在 日 前 搁 术 下 有 蜗 成 本 压力 。 云 计算 充分 利用 并 合理 使 
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HEW, ERZEKE, 

2) ERIKA: IT CTH BOR) BOARS, HEN IT 架构 的 升级 。 云 计算 的 标准 逐渐 
快速 发 展 。 

3) KRIK: 政府 的 低 碳 经 济 与 节能 减 排 的 政策 要 求 。 政 府 高 度 关 注 物 联网 、 云 计算 
等 基础 设施 目 助 发 展 成 略 。 

物 联 网 具有 全 面 感知 、 可 徘 传递 和 智能 处 理 三 个 特征 ， 其 中 智能 处 理 和 需要 对 海量 的 信息 
进行 分 析 和 处 理 ， 对 物体 实施 智能 化 的 控制 ， 这 就 需要 信息 技术 的 文 持 。 云 计算 具有 超大 规 
模 、 虚 拟 化 、 多 用 户 、 高 可 徘 性 、 高 扩展 性 等 正式 物 联网 规模 化 、 镶 能 化 发 展 所 需 的 技术 。 

云 计算 架构 在 互联 网 之 上 ， 而 物 联 网 主要 依赖 互联 网 来 实现 有 效 延 伸 ， 云 计算 模式 可 以 
文 撑 具有 业务 一 致 性 的 物 联 网 集约 运营 。 因 此 ， 很 多 研究 提出 了 构建 基于 云 计算 的 物 联网 运 
营 平 台 ， 该 平台 主要 包括 云 基础 设施 、 云 平台 、 云 应 用 和 云 管 理 。 依 托 公 众 通信 网 络 ， 以 数 
据 中 心 为 核心 ， 通过 多 介入 终端 实现 泛 在 接 入 ， 面 向 服务 的 端 到 端 体系 染 构 。 基 于 云 计 算 模 
式 ， 实 现 资源 共 圣 和 产业 协作 ， 提 融 效 率 ， 降 低 成 本 ， 提 升 服 务 。 

有 观点 认为 云 计算 是 物 联 网 “后 端 ” 文 撑 关 键 。 所 谓 物 联 网 的 “后 端 ” 是 实现 物 联 网 
和 贸 能 化 管理 目标 和 价值 奶 求 的 天 键 所 在 。 云 计算 协同 信息 处 理 与 计算 平台 对 信息 处 理 与 决 
琐 。 实 时 感应 、 高 度 并 发 、 日 主 协同 和 涌现 效应 等 特征 对 物 联网 “后 端 ” 提 出 了 新 的 挑战 ， 
需要 有 针对 性 的 研究 物 联网 特定 的 应 用 集成 问题 、 体 系 结构 以 及 标准 规范 ， 特 别 是 大 量 高 并 
发 时 间 驱 动 的 应 用 目 动 天 联 和 智能 协作 问题 。 在 互联 网 计算 领域 ， 将 软件 的 实现 与 运 维和 用 
法 相关 部 分 (服务 ) 相 剥离 ， 并 纳入 的 互联 网 级 基 设 中 ， 这 是 大 势 所 趋 。 而 互联 网 级 基 设 也 
是 云 计算 、 网 格 计算 的 本 质 所 在 。 

物 联 网 与 云 计 算是 交互 辉映 的 关系。 一 方面 ， 物 联网 的 发 展 也 离 不 开 云 计算 的 支撑 。 从 
量 上 看 ， 物 联网 将 使 用 数量 惊人 的 传 感 瘟 [ 如 数 以 亿 万 计 的 RFID( 射频 识别 ) .智能 尘埃 和 视 
频 监 控 等 ] ， 采 集 到 的 数据 量 怀 人 。 这 些 数 据 震 要 通过 无 线 传 感 网 、 宽 市 互联 网 回采 些 存储 
和 处 理 设 施 汇聚 ， 而 使 用 云 计算 来 承载 这 些 任 务 具 有 非常 显著 的 性 价 比 优势 ; MAR poA, fu 
用 云 计算 设施 对 这 些 数据 进行 处 理 、 分 析 、 挖 据 ， 可 以 更 加 迅速 、 准 确 地 管理 物质 世界 ， 从 
而 达到 “ 知 曼 ”的 状态 ， 大 幅度 提高 货源 利用 靳 和 社会 生产 力 水 平 。 可 以 看 出 ， 云 计算 和 攒 
代 其 强大 的 处 理 能 力 、 和 存储 能 力 和 极 高 的 性 价 比 ， 很 目 然 就 会 成 为 物 联网 的 后 台 支 撑 平 台 ; 
为 一 方面 ， 物 联网 将 成 为 云 计算 最 大 的 有 用户， 将 为 云 计 算 取 得 更 大 的 商业 成 功 艳 定 基 石 。 


1.4.3 云 计算 与 移动 互联 网 


互联 网 与 移动 通信 网 是 当今 最 上 其 影响 力 的 两 个 全 球 性 的 网 络 ， 移 动 互 联网 恰恰 融合 了 两 
者 的 发 展 优势 ， 被 称 作 破 坏 性 创新 的 云 计算 ， 在 宽 市 移动 互联 网 上 将 成 为 一 种 绕 不 开 的 趋 
势 。 市 场 调研 公司 认为 ， 云 计算 将 成 为 移动 世界 中 的 一 股 爆 破 理论 ， 最 终 会 成 为 移动 应 用 的 
主要 运行 方式 。 和 营 握 了 云 计 算 核心 技术 的 企业 无 疑 在 移动 互联 网 时 代 可 以 获得 更 强 的 主 
动 性 。 

移动 互联 网 和 云 计算 是 相辅相成 的 。 通 过 云 计算 技术 ， 软 、 便 件 获得 空前 的 集约 化 应 
用 ， 人 们 完全 可 以 通过 手持 一 个 终端 ， 就 能 实现 传统 PC 能 达到 的 功能 。 两 者 在 软 、 硬 件 设 
施 成 本 上 的 极 大 市 约 为 中 、 小 企业 市 来 了 福 首 ， 为 人 们 市 来 了 舒适 和 便捷 。 

云 计算 和 移动 互联 网 似乎 天 生 就 是 绝 配 。 手 机 拥有 便捷 性 和 通信 能力 等 众多 天然 优 扫 ， 
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而 计算 能 力 、 存 储 能 力 弱 ， 虽 然 各 厂商 推出 的 手机 正 逐 渐 癌 智能 化 演进 ， 但 受 限 于 体积 和 便 
携 性 的 要 求 ， 短 时 间 内 手机 的 处 理 能 力 难 以 和 计算 机 相 比 。 

从 这 点 出 发 ， 云 计算 的 特点 更 能 在 移动 互联 网 上 充分 体现 ， 将 应 用 的 计算 与 存储 从 终端 
转移 到 服务 天 的 云端 ， 从 而 弱化 了 对 移动 终端 设备 的 处 理 需 求 ， 成 为 新 业务 的 发 展 瓶 令 ， 在 
云 计 算 下 ， 只 要 配备 功能 强大 的 训 览 天 承 能 应 用 各 种 新 业务 ， 在 后 合 云 计 算 的 存储 量 和 计算 
能 力也 解决 了 手机 存储 量 有 限 和 丢失 信息 等 问题 。 同 时 ， 实 现 了 手机 移动 和 固定 计算 、 便 携 
式 计算 机 的 协同 。 对 于 追求 个 性 化 的 移动 互联 网 市 场 来 说 ， 云 计算 的 力量 十 分 关键 。 

移动 互联 网 时 代 的 来 临 ， 对 用 户 来 讲 ， 最 好 的 体验 是 淡化 有 线 和 无 线 的 概念 。 在 这 样 的 
理念 下 ， 云 计算 有 望 突破 各 种 终端 ， 包 括 和 手机、 计算机、 电视 和 视听 设备 等 在 存储 及 运算 能 
力 上 的 限制 ， 显 示 的 内 容 、 应 用 都 能 保持 一 致 性 和 同步 性 。 各 大 开 广 商都 是 利用 云 计 算 制 
定 如 Iaas PaaS 和 SaaS 策略 ， 和 希望 通过 互联 网 的 力量 ， 以 软件 为 基准 ， 将 无 颖 的 服务 提供 
给 移动 终 问 用 户 。 

云 计 算 正 从 互联 网 逐渐 过 渡 到 移动 互联 网 。 目 前 社交 网 站 越 来 越 火爆， 国外 的 Facebook 
以 及 国内 的 人 人 网 、 开 心 网 等 都 是 其 典型 的 代表 。 社 交 网 站 运用 云 计算 思维 ,实现 了 网 站 上 
各 种 信息 的 同步 更 新 。 沿 着 这 个 思路 的 移动 云 计算 已 经 出 现 ， 如 摩托 罗拉 公司 推出 的 手机 解 
RTT Ro 

如 今 ， 随 着 一 些 典 型 的 互联 网 云 计 算 应 用 ， 互 联网 的 云 与 端 之 间 已 经 形成 了 平滑 对 接 ， 
而 在 移动 互联 网 上 ， 云 与 闫 之 间 还 需要 “ 管 ” 来 沟通 它们 之 间 的 鸿沟 。 浏 览 硕 或 许 将 成 为 
重要 的 “ 管 ” 角 色 。 

去 计算 对 于 云 与 端的 两 侧 都 具有 传统 模式 不 可 比拟 的 优势 。 在 云 一 侧 ， 为 内 部 开发 者 和 
业务 使 用 者 提供 更 多 的 服务 ， 提 升 基础 设施 的 使 用 效 认 和 资源 部 署 的 灵活 性 ; TEXS— DU, BE 
够 迅速 部 署 应 用 和 服务 ， 按 需 调整 业务 使 用 量 。 从 目前 云 计 算 的 成 功 案例 中 可 以 看 出 云 计算 
极 大 地 提高 了 互联 网 信息 技术 的 性 能 ， 具 有 巨大 的 计算 和 成 本 优势 。 


1.4.4 云 计 算 与 三 网 融合 


所 请 的 三 网 融合 ， 是 指 广播 电视 网 、 电 信和 网 与 互联 网 的 融合 ， 其 中 互联 网 是 核心 。 据 国 
务 院 三 网 融合 领导 小 组 专家 组 组 长 、 中 国 工 程 院 副 院 长 郭 足 狂 估算 ， 三 网 融合 局 动 的 相关 产 
业 市 场 规模 达 6880 亿 元 人 民 币 。 其 中 电信 宽带 升级 、 广 电 双 回 网 络 改造 、 机 项 盒 产 业 发 展 
以 及 基于 音频 、 视 频 内 容 的 信息 服务 系统 建设 的 有 效 投资 额 为 2490 亿 元 人 民 币 ， 可 激发 和 
释放 的 信息 服务 与 终端 消费 额 近 4390 亿 元 人 民 币 。 

三 网 融合 被 纳入 “十 二 五 ”规划 ， 并 明确 写 入 《国务 院 关 于 加 快 培育 和 发 展 战略 性 新 
兴 产 业 的 决定 》。 业 内 权威 专家 认为 ， 三 网 融合 的 政策 持续 加 码 ， 将 推动 电信 和 广电 业务 相 
互 进入 、 广 电网 络 整合 、 网 络 运 依 商 角 色 再 定位 等 一 系列 结 命 性 变化 同步 加 速 。 仅 中 国电 信 
一 家 运营 商 ， 其 两 年 内 用 于 宽 市 升级 的 投资 将 达到 近 300 亿 元 人 民 币 。 

云 计算 使 计算 能 力 从 分 散 终 端 癌 网 络 综合 服务 转变 ， 使 商业 模式 从 网 络 设备 基础 设施 问 
服务 转变 ， 从 连续 计算 机 资源 回 连 接 个 人 和 设备 转弯 。 云 计算 的 基础 仍然 是 宽 市 ， 其 服务 于 
段 和 服务 对 象 郡 需要 宽 市 。 社 会 的 各 种 生活 eA AL En Ac Revera T BOR, Bl 
也 加 大 了 对 宽 市 业务 的 投入 ， 各 广 商 也 都 在 加 大 对 宽 市 业务 的 研发 。 

业内 专家 认为 ， 随 着 三 网 融合 政策 的 出 台 ， 以 及 下 一 代 广 电网 络 的 出 现 ， 云 计算 不 但 会 
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为 现 有 广电 和 电信 产业 市 来 新 商机 ， 还 会 大 大 拓展 相关 产业 链 ， 使 更 多 企业 受益 ， 为 云 计 算 
提供 切实 的 应 用 机 会 。 三 网 融合 和 下 一 代 广 电网 项 目 是 要 为 用 户 提 供 多 样 、 便 捷 的 服务 。 由 
于 云 计算 能 够 大 大 降低 数据 和 存储、 计算 和 分 发 成 本 ,一些 以 前 无 法 实现 的 应 用 ， 现 在 部 有 可 
能 变 成 现实 。 云 计算 完成 计算 任务 ， 加 上 物 联 网 等 终 问 应 用 和 3G 移动 通信 的 数据 信息 传 
输 ， 将 三 网 整合 形成 一 个 系统 的 信息 采集 、 接 收 和 处 理 的 整体 。 

三 网 融合 和 下 一 代 广电 网 络 的 最 终日 标 是 构建 全 数据 、 全 融合 的 国家 骨干 网 络 ， 借 助 云 
计算 技术 ， 下 一 代 广 电网 络 还 会 与 传统 行业 相 融 合 ， 实 现 诸 如 远程 教育 、 网 络 医疗 会 诊 、 股 
票 信息 、 交 通 查 询 、 精 确 广告 投放 等 更 多 应 用 。 有 了 云 计 算 技 术 ， 一 些 从 事 传统 行业 的 企业 
也 能 搭 上 三 网 融合 和 下 一 代 广 电网 的 快 和 车。 例如， 传统 的 GPS 厂商 只 是 生产 两， 而 信 助 于 
云 计 算 技术 ， 他 们 可 以 成 为 服务 性 企业 ， 通 过 增值 业务 获得 更 多 收入 。 中 国电 子 协 会 计算 机 
委员 会 专家 刘 鹏 认为 ， 云 计算 在 三 网 融合 以 及 下 一 代 广 电网 中 的 应 用 ， 涉 及 数据 人 存储、 数据 
计算 、 数 据 再 处 理 、 软 件 开 发 、 数 据 传 输 、 网 络 协同 等 多 个 方面 ， 因 此 需要 大 量 不 同类 型 的 
企业 参与 其 中 。 


1.5 各 大 IT 厂商 云 计算 平台 特点 概述 


1. 谷歌 公司 

谷歌 公司 在 互联 网 搜索 方面 建立 了 强大 的 商业 模式 ， 同 时 也 是 云 计算 领域 的 重要 实践 
者 。 人 谷歌 公司 在 其 传统 搜索 引擎 Gmail, Google Web API 等 产品 的 基础 上 针对 上 自己 特定 的 
网 格 应 用 程序 开展 起 了 众多 云 计算 业务 ， 现 在 不 仅 提 供 云 服 务 给 众多 个 人 消费 者 ， 而 且 还 涉 
足 企 业 用 户 ， 所 提供 的 服务 形式 包括 应 用 托管 服务 和 企业 搜索 等 。 为 了 文 撑 其 云 计 算 平 台 ， 
谷歌 公司 在 IT 基础 架构 方面 进行 了 巨大 的 投入 ， 它 在 美国 的 爱 何 华 州 、 北 卡 罗 羔 纳 州 和 南 
卡 罗 莱 纳 州 等 州 近 期 已 经 完成 或 正在 构建 全 新 的 数据 中 心 ， 平 均 每 个 造价 高 达 6 亿美 元 。 

这 里 将 主要 介绍 Google App Engine( 谷歌 应 用 引擎 , GAE) 和 Google Apps 这 两 个 云 服务 。 

(1) GAE 

2008 年 4 月 ， 谷 歌 公 司 推 出 了 Google App Engine。 这 是 一 个 可 伸缩 的 Web 应 用 程序 云 
平台 ， 使 用 户 能 够 在 谷歌 公司 基础 设施 上 构建 和 托管 Web 应 用 程序 。GAE 提供 了 一 个 SDK 
(软件 开发 工具 包 ) ， 使 用 户 可 以 在 本 地 使 用 Java 或 者 Python 开发 和 测试 Web 应 用 程序 ， 然 
Jai TE we fe GAE 的 生产 环境 中 进行 运行 、 监 控 和 管理 。 

GAE 开始 是 免费 使 用 ， 可 提供 超过 SOOMB 的 存储 空间 ， 以 及 每 月 约 500 万 页 面 浏览 量 
的 免费 配额 。 用 户 可 以 创建 账户 ， 发 布 应 用 程序 ， 而 无 需 承 担任 何 费用 和 风险 。 当 应 用 程序 
局 用 付费 后 ， 配 额 将 提高 ， 但 用 户 只 需 为 使 用 的 超过 免费 水 平 的 资源 付费 。 

GAE 基于 谷歌 公司 早 就 建立 起 来 的 底层 平台 。 这 个 平台 包括 MapReduce 分 布 式 处 理 技 
AK. GFS( Google File System ,谷歌 分 布 式 文件 系统 ) 和 分 布 式 数 据 库 BigTable。 其 中 ，MapRe- 
duce API 提供 Map ( EE) 和 Reduce( 化 简 ) 处 理 ，GFS 和 BigTable 提供 数据 存 取 。 

(2) MapReduce 分 布 式 处 理 技术 

为 了 简化 分 布 式 编程 模式 ,谷歌 公司 设计 了 适合 于 大 规模 并 行 数据 处 理 的 编程 模型 
MapReduce， 并 将 其 用 于 目 刁 的 搜索 引擎 系统 。 该 模型 用 于 大 规模 数据 集 ( 大 于 1TB ) 的 并 行 
运算 ， 使 应 用 程序 编写 人 员 只 需要 将 精力 放 在 应 用 程序 本 号 上 ， 而 关于 计算 机 群 的 可 对 性 、 
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可 扩展 性 等 问题 则 交 由 平台 来 处 理 。 它 可 以 实现 应 用 程序 和 底层 分 布 式 处 理 机 制 的 隔离 ， 比 
如 数据 分 布 、 调 度 和 容错 等 ， 并 且 尽 可 能 地 将 计算 指令 分 配 在 那些 保存 分 布 式 文件 系统 的 数 
据 方 点 上 ， 以 减少 网 格 的 负载 。 这 种 模型 的 核心 思想 是 将 需要 运算 的 问题 拆 解 成 Map 和 Re- 
duce 这 两 个 简单 的 步 召 。 首 先 通 过 Map 程序 将 数据 切 成 很 多 运算 块 ， 然 后 分 配给 大 量 不 同 
的 计算 机 处 理 ， 最 后 通过 Reduce 程序 将 结 采 合成 ， 输 出 用 户 需 要 的 结 采 。 这 种 编程 模型 适 
用 于 海量 数据 输入 和 数据 统计 等 可 切 分 工作 。 

(3) GFS 

GFS 是 一 个 可 扩展 、 结 构 化 的 分 布 式 文件 系统 ， 它 基于 Linux 操作 系统 普通 的 文件 系统 
(如 Exi3 等 ) ， 将 多 台 计 算 机 上 的 存储 空间 统一 管理 起 来 ， 可 以 文 持 大 型 、 分 布 式 大 数据 量 
的 读 写 操作 ， 其 容错 性 较 强 。 在 GFS 中 ， 数 据 以 64MB 的 数据 块 为 存储 单位 ， 分 布 存 放 到 不 
同 的 计算 机 上 ; 每 份 数据 至 少 在 三 台 计 算 机 上 存在 副本 ， 并 且 会 保证 数据 间 的 同步 ; 2g Yn 
约 空间 ， 对 大 量 文本 型 的 数据 进行 压缩 保存 。 

(4) BigTable 

基于 内 存 的 结构 化 数据 的 存储 系统 。 不 像 关 系 型 数据 库 ( 比 如 DB2) ， 该 系统 对 事务 的 
文 持 能 力 很 有 限 ， 但 其 扩展 性 较 好 。 它 文 持 以 表 的 形式 来 操作 数据 ， 提 供 了 高 效 查 询 。 还 文 
持 查 询 结 果 的 排序 ， 包括 按 多 属性 进行 排序 。 它 通过 事务 分 组 来 控制 对 号 操作 的 事务 。 合 歌 
公司 的 很 多 应 用 ， 比 如 Gmail, Google Maps 都 把 数据 存储 在 BigTable 上 。 

(5) Google Apps 

除了 提供 GAE 云 平台 ,谷歌 公司 还 提供 了 很 多 基于 SaaS Wahi. Google Apps 提供 的 东 
西 包括 基于 Web 的 文档 、 电 子 数 据 表 以 及 其 他 生产 性 应 用 服务 。Google Apps 是 免费 提供 给 客 
户 使 用 的 ， 当 然 谷歌 公司 也 提供 收费 的 高 级 版 本 的 服务 (大 约 每 年 50 美元 )。 截 至 目前 , 已 经 
A 50 多 万 家 组 织 注 册 了 Google Apps， 整 个 Google Apps 的 用 户 数量 大 约 达 到 了 1000 万 。 

典型 的 谷歌 公司 云 计 算 应 用 程序 就 是 Google Docs 服务 。 由 于 借鉴 了 异步 网 络 数据 传输 
的 Web2.0 技术 ， 此 类 应 用 程序 给 予 用 户 全 新 的 界面 感受 以 及 更 强大 的 多 用 户 交 互 能 
Google Docs 是 一 个 给 予 Web 的 工具 ， 它 具有 和 微软 公司 Office 软件 相近 的 编辑 界面 ， 由 一 
套 向 单 多 用 的 文档 权限 管理 ， 而 且 还 可 以 记录 下 所 有 用 户 对 文档 所 做 的 修改 。Google Docs 
的 这 些 功 能 令 它 非常 适合 于 网 上 共 于 和 协作 编辑 文档 。Google Docs 甚至 可 以 用 于 监控 责任 
清晰 、 目 标明 确 的 项 目 进度 。 当 前 ，Google Docs 已 经 推出 了 文档 编辑 、 电 子 表 格 、 约 灯 搬 
演示 和 日 程 管理 等 多 个 功能 的 编辑 醒 块 ， 能 够 符 代 微软 公司 Office 软件 相应 的 部 分 功能 。 值 
得 注意 的 是 ， 通 过 这 种 云 计 算 方式 形成 的 应 用 程序 非 背 适合 于 多 个 用 户 进 行 共 享 以 及 协同 编 
辑 ， 为 一 个 小 组 的 人 员 进 行 共 同 创 作 囊 来 了 很 大 的 方便 。 

2. 亚马逊 (Amazon ) 公 司 

亚马逊 公司 是 美国 一 家 电子 商务 网 站 ， 也 是 美国 最 大 的 在 线 零售 商 ， 其 网 络 上 的 销售 祷 
大 约 是 美国 最 大 的 办 公用 品 零 售 商 Staples 公司 的 3 倍 。 亚 马 逊 公司 在 所 有 布 云 三 商 中 是 比 
较 特 殊 的 一 家 ， 因 为 它 并 不 是 传统 意义 上 的 开 厂 商 ， 但 却 在 IT 领域 的 云 计 算 上 做 得 风 生 水 
起 ， 成 为 业界 公认 的 云 计算 先行 者 之 一 。 

亚马逊 网 上 书店 成 立 于 1995 年 。 作 为 全 球 电子 商务 的 成 功 代 表 ， 该 公司 投入 了 巨大 的 
研发 力量 和 资金 来 建设 目 己 的 数据 中 心 ， 并 且 建 立 了 鉴 越 全 球 的 硬件 和 软件 基础 设施 ， 来 文 
持 目 己 的 互联 网 业务 。 他 们 和 硕 望 目 己 的 计算 中 心 可 以 被 别人 使 用 ， 于 是 将 那些 基础 设施 的 组 
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件 模块 化 并 且 出 租 。 这 样 亚马逊 公司 就 从 一 家 纯粹 的 网 络 书 店 或 者 商店 变 成 了 云 计 算 服务 
商 、 一 家 具有 高 科技 性 质 的 服务 公司 ， 开始 为 个 人 以 及 企业 提供 云 计算 服 务 。 

亚马逊 公司 的 云 计 算 服 务 AWS( Amazon Web Services) 主要 包含 四 个 核心 服务 : Simple 
storage Services, EC2( Elastic Compute Cloud), SQS(Simple Queue Service) 以 及 Simple DB, 

(1) Simple storage Services 

2006 年 3 月 ， 亚 马 逊 公司 首先 推 出 的 云 计算 服务 是 简单 存储 服务 ， 它 实现 了 laas 的 存 
储 云 的 功能 ， 并 且 作 为 公共 存储 云 服 务 提供 给 个 人 和 企业 用 户 使 用 。 

亚马逊 公司 的 简单 存储 服务 S3 EPEAT PR TR. 、 低 成 本 的 基于 Web 的 服务 ， 主 要 
用 于 文档 、 图 片 、 影 像 以 及 其 他 应 用 程序 数据 的 在 线 备份 和 存档 。S3 允许 上 传 、 存 储 和 下 
载 1B ~5GB 大 小 的 文件 或 对 象 等 非 结 构 化 数据 。 亚 马 逊 公司 并 没有 限制 用 户 可 存储 的 项 目 
的 数量 。 据 亚马逊 公司 网 络 服务 网 页 报告 ，S3 是 用 最 低 限 度 的 功能 设置 来 设计 的 ， 并 且 开 
发 商 通过 它 可 以 更 容易 地 使 用 网 络 规模 计算 。 

在 S3 中 ， 用 户 数 量 存储 在 多 个 数据 中 心 的 匈 余 服务 右上 。 它 采用 一 个 简单 的 基于 Web 
的 界面 并 且 使 用 密 钥 来 验证 用 户 映 份 。 用 户 可 以 选择 设置 自己 的 数据 位 私有 数据 或 者 公开 数 
jn, 并且 可 以 在 存储 之 前 对 自己 的 数据 进行 加 密 该 存储 服务 按照 月 租金 的 形式 进行 服务 付 
寓 ， 同 时 用 户 还 需要 为 相应 的 网 络 流量 进行 付费 。 用 户 可 以 在 任何 地 方 通过 网 络 从 亚马逊 网 
站 获取 目 己 的 数据 。 在 美国 和 在 欧洲 提供 服务 的 费用 差异 是 微小 的 ; 在 欧洲 提供 1000 次 的 
网 络 存 取 服 务 ， 只 比 在 美国 贵 大 约 2000 美 分 。 

亚马逊 公司 的 S3 实际 上 是 一 个 互联 网 上 的 大 网 盘 。 它 没有 目录 和 文件 名 ， 只 是 一 个 大 
空间 ， 用 户 可 以 在 上 面 存 储 和 提取 目 己 的 非 结构 化 数据 。 可 以 认为 S3 的 结构 实际 上 是 一 个 
平面 文件 系统 。 然 而 ， 在 S3 中 除了 可 以 处 理 数 据 ， 也 可 以 处 理 对 象 。S3 中 的 对 象 可 以 看 作 
三 位 一 体 : 关键 字 、 数 值 和 元 数据 。 关 键 字 是 该 对 象 的 名 称 ， 数 值 是 具体 的 内 容 ， 元 数据 是 
一 组 描述 对 象 信 息 的 “ 键 值 ”对 。 对 象 的 名 称 可 以 是 3 ~ 255 个 字符 ， 但 是 不 能 采用 网 址 的 
格式 ， 例 如 “192. 168. 1. 1” 是 不 符合 格式 要 求 的 。 

(2) EC2 

EC2 是 一 个 证 用户 可 以 租用 云 计算 机 运行 所 需 应 用 的 系统 。EC2 信 由 提供 Web 服务 的 
方式 让 用 户 可 以 弹性 地 运行 自己 的 亚马逊 机 需 镜像 (AMI) 文件 ， 用 户 将 可 以 在 这 个 虚拟 机 上 
运行 任何 目 己 想 要 的 软件 或 应 用 程序 。 

用 户 可 以 随时 创建 、 和 运行、 终止 自己 的 虚拟 服务 磊 ， 使 用 多 少时 间 算 多 少 钱 ， 也 因此 这 
个 系统 是 “弹性 ”使 用 的 。EC2 让 用 户 可 以 控制 运行 虚拟 服务 硕 的 主机 地 理 位 置 ， 这 可 以 
让 延迟 还 有 备 援 性 最 高 。 例 如 ， 为 了 让 系统 维护 时 间 最 短 ， 用 户 可 以 在 每 个 时 区 都 运行 目 己 
的 虚拟 服务 需 。 亚 马 逊 公司 以 AWS 的 品牌 提供 EC2 的 服务 。 

2006 年 8 月 ， 亚 马 逊 公司 推出 了 其 最 重要 的 云 计算 服务 ， 也 就 是 AWS 现 有 业务 中 最 大 
HJ— Hz; EC2。 它 实现 了 laas 的 计算 云 的 功能 ， 并 且 作 为 公共 云 服 务 提供 给 个 人 和 企业 用 
户 使 用 。 企 业 需 要 计算 服务 时 ， 不 再 需要 目 行 购买 服务 硕 ， 而 是 可 以 改 癌 亚马逊 公司 租用 ， 
按 使 用 付费 。 亚 马 逊 公司 现 有 约 4 万 台 服 务 塘 ， 分 布 在 北美 洲 和 欧洲 用 以 文 持 EC2 服务 。 

亚马逊 公司 的 EC2 建立 在 其 自己 公司 内 部 的 大 规模 集群 计算 的 平台 之 上 ， 而 用 户 可 以 
通过 EC2 的 实例 是 一 些 正在 运行 的 虚拟 机 ， 每 个 实例 代表 一 台 正 在 运行 中 的 虚拟 机 。 对 于 
提供 给 某 一 个 用 户 的 虚拟 机 ， 该 用 户 具 有 完整 的 访问 权限 ， 包 括 针 对 该 虚拟 机 的 管理 员 用 户 
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权限 。 在 EC2 中 的 每 一 个 计算 实例 都 具有 一 个 内 部 的 IP 和 一 个 外 部 的 IP 地 址 进行 数据 通 
言 ， 以 获得 数据 通信 的 最 好 性 能 。 用 户 利用 分 配给 自己 的 弹性 TP 地 址 来 分 配 自己 的 运行 实 
例 ， 使 得 建立 在 EC2 上 的 服务 系统 能 够 为 外 部 提供 服务 。 客 户 端 通过 SOAP ( 简单 对 象 访 问 
协议 )over HTTPS ( 安全 超 文本 传输 协议 ) 来 实现 与 EC2 内 部 的 实例 进行 交互 ， 保 证 远 端 连 接 
的 安全 性 ， 以 解决 用 户 数 据 在 传输 过 程 中 的 安全 问题 。 

在 用 户 使 用 模式 上 ， 用 户 可 以 首先 创建 包括 操作 系统 、 应 用 程序 和 配置 设置 在 内 的 AMI 
也 可 使 用 亚马逊 公司 预先 提供 的 AMI EAL ARLES S3 并 注册 EC2 ， 接 着 创建 一 个 亚 
马 逊 机 器 映 像 认 证 符 (AMI ID) ， 最 后 调用 亚马逊 公司 的 应 用 程序 编程 接口 (API) ， 对 AMI 
进行 使 用 和 管理 。AMI 实际 上 就 是 虚拟 机 模板 ， 用 户 可 以 使 用 它 来 完成 任何 工作 ， 例 如 运 
行 数据 库 服 务 器 、 构 建 网 站 、 提 供 外 部 网 页 服务 ， 甚 至 可 以 出 租 自 己 具 有 特色 的 AMI 而 获 
得 收益 。 用 户 所 拥有 的 多 个 AMI 可 以 通过 通信 而 彼此 合作 ， 就 像 当 年 的 集群 计算 服务 平 合 
一 样 。EC2 的 处 理 能 力 可 以 实时 增 减 ， 至 少 可 以 相当 于 一 台 虚 拟 机 的 处 理 能 力 ， 多 至 1000 
人 台 以 上 的 处 理 水 平 。 除 了 可 以 提供 完整 的 计算 资源 外 ，EC2 还 有 一 些 其 他 的 重要 管理 功能 . 

1) 亚马逊 云 监 测 是 一 项 监控 AWS 云 资 源 的 网 络 服务 ， 使 亚马逊 公司 产品 的 用 户 可 以 
了 解 到 资源 使 用 、 操 作 性 能 和 总 体 需 求 状况 ， 包 括 CPU 的 使 用 、 磁 盘 读 写 和 网 络 流量 等 
指标 ; 

2) 目 动 测量 允许 EC2 的 容量 根据 要 求 增 大 、 减 小 ， 保 证 EC2 在 流量 高 峰 时 增 容 以 维持 
其 性 能 ， 在 容量 较 低 时 减 容 以 节约 成 本 ， 此 特性 对 于 使 用 率 波动 频 党 的 程序 来 说 尤其 适用 ; 

3) FRE teva, FES EC2 计算 实例 之 间 分 配 流量 ， 人 允许 程序 出 错 ， 它 能 够 在 资源 池 
中 探测 出 运行 不 正常 的 实例 ， 并 引导 信息 流通 过 正常 实例 进行 ， 直 到 不 正常 实例 被 修复 ,使 
得 用 户 可 以 使 用 云 资 源 来 进行 简单 和 自动 的 监控 、 测 量 和 流量 控制 ， 从 而 帮助 用 户 可 以 更 好 
地 控制 他 们 的 AWS 资源 ， 创 造 出 性 能 更 优 、 弹 性 更 强 、 耗 费 更 低 的 设计 。 

EC2 的 付费 方式 原则 上 是 按照 其 计算 和 所 消耗 的 网 络 资源 收取 ， 但 也 有 和 针对 某 些 特殊 功 
能 的 额外 服务 收费 。 虚 拟 机 的 收费 是 根据 虚拟 机 的 能 力 进行 计算 的 ， 因 此 ， 实 际 上 用 户 租用 
的 是 虚拟 机 的 计算 能 力 。 付 费 方式 则 由 用 户 的 使 用 状况 决定 ， 即 用 户 仅 需要 为 自己 所 使 用 的 
计算 平台 实例 付费 ， 运 行 结 束 后 计 费 也 随 之 结束 。 在 EC2 中 ， 提 供 了 三 种 不 同 能 力 的 虚拟 
机 实例 ， 具 有 不 同 的 收费 价格 。 例 如 ， 据 亚马逊 公司 网 络 服务 网 页 报告 ， 其 中 默认 的 也 是 最 
小 的 运行 实例 是 1.7GB 内 存 1 7 EC2 的 计算 单元 (一 个 虚拟 的 计算 核对 应 的 计算 单元 ) ， 有 具 
有 160GB 的 虚拟 机 内 置 存储 容量 ， 是 一 个 32 位 的 计算 平台 ， 收 费 标准 为 10 $h, TEL 
前 的 计算 平台 中 ， 还 有 两 种 性 能 更 加 优异 的 虚拟 机 实例 可 供 使 用 ， 相 应 的 价格 也 更 昂贵 一 
些 。 其 他 的 网 络 资源 (例如 TP 地 址 和 网 络 服务 流量 等 ) 消耗 的 计 费 也 有 相应 的 计 费 原则 。 例 
如 内 部 传输 和 外 部 传输 的 计 费 原则 就 不 同 。 额 外 增值 服务 收费 主要 针对 某 些 特殊 的 功能 服 
务 ， 比 如 亚 马 进 云 监测 和 弹性 负 衙 调节 。 

亚马逊 公司 通过 提供 EC2 ， 把 计算 、 存 储 和 应 用 作为 服务 提供 。 通 过 物理 资源 的 共享 ， 
市 约 了 单一 用 户 的 使 用 成 本 。 通 过 提供 更 多 的 安全 机 制 和 可 徘 性 机 制 ,减少 了 小 规模 软件 开 
发 人 员 对 于 集群 系统 的 维护 ， 并 且 按 使 用 来 收费 的 方式 更 具 成 本 优势 。 同 时 ， 按 用 量 收费 的 
模式 可 以 帮助 扩展 软件 的 销售 通路 ， 例 如 ，ORACLE 和 IBM 公司 就 相继 宣布 用 户 可 以 在 
EC2 中 运行 自己 的 各 项 软件 产品 ， 按 量 收 费 。 

(3) SQS 


BT 
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2007 年 7 月 ， 亚 马 撑 公司 推出 了 简单 队列 服务 (SQS)， 这 项 服务 使 托管 主机 可 以 存储 计 
算 机 之 间 发 送 的 消息 。 通 过 使 用 SQS， 开 发 人 员 可 以 开发 分 布 式 应 用 程序 ， 并 在 它们 中 间 用 
一 种 安全 、 灵 活 和 可 笔 的 方式 通信 ， 而 无 需 考 虑 消息 丢失 的 问题 。 通 过 这 种 服务 方式 解决 消 
县 弄 步 传输 问题 ， 即 使 消息 的 接收 方 还 没有 局 动 也 没有 关系 ， 服 务 内 部 会 缓 仓 ， 而 一 旦 有 消 
县 接收 ， 组 件 被 司 动 运行 ， 队 列 服务 就 将 消息 提交 给 相应 的 运行 模块 进行 处 理 。 此 外 ，SQS 
服务 队列 可 以 被 命名 并 制定 访问 权限 ， 来 决定 谁 有 权 读 / 写 队 列 ， 并 且 提 供 了 内 置 的 功能 3 
避 人 免 死 锁 的 发 生 ， 或 用 来 处 理 当 两 个 接受 者 同 时 访问 相同 消息 的 情况 。 目 前 ， 消 息 只 可 以 是 
文字 ， 并 且 长 度 必 须 小 于 8KB 。 

任何 连 入 互联 网 的 机 融 都 可 以 从 一 个 亚马逊 队列 中 读 取 或 者 发 送 内 容 。 队 列 的 接收 者 可 
以 在 不 同时 间 、 不 同位 置 接收 队列 中 的 数据 。 队 列 必 须 为 这 种 消息 传递 服务 进行 付费 ， 通 篆 
依据 消息 的 个 数 以 及 消息 传递 的 大 小 进行 计算 。 例 如 每 10000 MAW 1 Seah, BE GB 的 数 
据 传 输 从 10 美 分 到 18 美 分 不 等 。 

(4) SDB 

同 S3 专 为 非 结 构 化 的 数据 块 (比如 文件 ) 设 计 不 一 样 ，SDB(Simple DB) 是 一 个 快速 的 可 
伸缩 实时 数据 引擎 和 查询 框架 ， 是 为 复杂 的 结构 化 数据 建立 的 。 基 于 AWS 的 应 用 程序 ， 可 
以 用 它 轻 松 地 存储 和 获取 结构 化 数据 。 它 能 够 与 其 他 AWS 很 好 地 协作 。 跟 其 他 云 计算 一 样 ， 
也 是 内需 根据 使 用 量 为 服务 付费 ， 而 且 还 提供 一 定 的 免费 使 用 量 。 

SDB 数据 库 不 是 像 DB2 或 者 MySQL 那样 的 关系 数据 库 。 按 照 产 品 描述 ，SDB 是 “一 个 
对 结构 化 数据 实时 查询 的 Web IRS”, SDB 是 使 用 轻 量 级 并 且 很 容易 掌握 的 查询 语言 实现 的 
数据 库 ， 但 它 支 持 大 部 分 可 以 能 会 需要 的 数据 库 操 作 ( 查询 获取 、 插 入 和 删 际 等 )， 并 且 很 
容易 增长 。 例 如 ， 拥 有 的 域 可 高 达 100 个 ， 每 个 域 中 又 可 以 成 长 到 10GB 和 安置 多 达 2.5 亿 
个 属性 。 而 且 不 必 担 心 数 据 会 随 着 数据 库 的 增长 而 分 布 到 多 个 磁盘 上 去 。 此 外 ，SDB 为 文 
Ae “SEIN” (PREFS) 查询 特性 ， 专 门 优化 了 设计 。 例 如 ， 为 确保 快速 查询 响应 ， 当 数据 
项 被 放置 在 数据 库 中 时 ， 所 有 属性 将 目 动 索 引 编号 。 

3. 微软 (Microsoft) 公司 

微软 公司 是 目前 全 球 最 大 的 计算 机 软件 提供 商 。 在 云 计 算 已 经 成 为 全 球 IT 产业 共同 应 
和 的 、 主 流 的 声音 时 ， 微 软 公 司 也 走 在 了 时 代 的 前 治 。 经 过 多 年 的 积 旋 和 持续 探索 ， 微 软 公 
司 正式 发 布 了 一 些 列 称 为 S+S( 软 件 + 服 务 ) 的 云 计算 产品 和 服务 。 

下 面 将 主要 介绍 微软 公司 的 公共 云 服 务 Windows Azure 和 Microsoft Live, 

(1) Windows Azure 

2008 年 ， 在 微软 公司 开发 者 大 会 上 ,微软 公司 发 布 了 一 个 全 新 的 云 计算 平台 
Services Platform ( www. azure. com) 。 这 是 一 个 基于 微软 公司 数据 中 心 的 PaaS 平台 ( 见 图 1-3) ; 
提供 了 一 个 在 线 的 基于 Windows 操作 系统 系列 产品 的 开发 、 存 储 和 服务 代 管 等 服务 的 环境 。 
微软 公司 的 Azure 平台 直接 瞄准 微软 公司 产品 开发 人 员 ， 对 于 每 天 使 用 C# 和 SQL Server 的 人 
AE DUE RU], Azure 根据 用 量 定价 ， 使 用 Azure 服务 越 多 ， 价 格 越 高 。Azure 可 以 根据 计算 
时 间 (CPU 使 用 ) 、 宽 带 ( 包 括 进 和 出 ) 和 存储 计 费 ， 也 可 以 根据 事务 (例如 GET 和 PUT) 
收费 。 

Azure 的 底层 是 数据 中 心中 数量 庞大 的 64 位 Windows Ht 4$ 2$, Windows Azure 通过 底层 
HS oA d til gy ( Fabric Controller, VMware 的 Virtual Center 有 着 十 分 相似 的 功能 ) 将 这 些 服 
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图 1-3 ”微软 公司 Azure 平台 示意 
务 项 有效 地 组 织 起 来 ， 给 前 闯 的 应 用 提供 计算 和 存储 能 力 ， 并 保证 其 可 知性 。 它 可 以 看 作 一 
个 在 线 的 操作 系统 环境 ， 统 治 了 整个 数据 中 心 的 运算 资源 ， 用 户 可 以 很 方便 地 调用 这 些 资 
源 ， 来 执行 各 种 应 用 程序 。 此 外 ， 操 作 系 统 升级 、 维 护 等 也 可 以 在 系统 不 宕 机 的 情况 下 目 动 
完成 。 

同时 ， 微 软 公 司 还 提供 了 一 套 基 于 Visual Studio 的 Azure 工具 ， 可 供 开 发 者 在 计算 机 
上 上 开发、 模拟 和 测试 Azure 平台 上 的 应 用 程序 。 通 过 Azure 工具 的 发 布 按钮 , 开发 者 能 将 
ASP. NET 等 应 用 程序 直接 部 闭 到 Azure 平台 上 。 这 样 ， 开 发 人 员 束 能 够 缩短 开发 时 间 ， 
降低 成 本 ， 并 在 熟悉 的 Windows 操作 系统 开发 环境 及 统一 的 变 成 模型 基础 上 衍生 出 新 的 
应 用 和 服务 。 

Azure 平台 目前 推出 了 五 项 托管 服务 ， 包 括 .NET 应 用 服务 、SQL 服务 、SharePoint 服 
务 、Dynamics CRM 服务 以 及 Live 服务 等 ， 用 以 帮助 客户 建立 云 计 算 的 应 用 ， 或 将 现 有 的 业 
务 拓展 到 云端 。 

1) .NET 服务 : 最 初 被 命名 为 BizTalk 服务 ， 它 由 访问 控制 、 服 务 总 线 和 工作 流 三 个 模 
块 组 成 。. NET 服务 提供 了 一 个 基础 架构 ， 使 用 户 可 以 不 必 一 忆 一 表 开 发 重复 的 功能 和 基础 
设施 来 构建 基于 互联 网 的 分 布 应 用 ， 就 可 以 初步 实现 互联 网 服务 总 线 的 一 些 功能 。 

2) SQL 服务 : 是 一 个 云 计 算 平台 的 数据 库 ， 构 建 在 企业 级 的 SQL Server 数据 库 和 Win- 
dows lit rds E, SQL 服务 提供 了 一 系列 丰富 的 集成 服务 ， 可 以 对 数据 进行 查询 、 搜 索 、 
同步 、 报 告 和 分 析 之 类 的 操作 。 数 据 可 以 存储 在 各 种 设备 上 ， 从 数据 中 心 最 大 的 服务 从 一 耻 
到 时 面 计算 机 和 移动 设备 ， 用 户 可 以 控制 数据 而 不 用 省 数据 存储 在 哪里 。 为 外 ，SQL 服务 可 
以 为 应 用 程序 提供 较 高 级 别 的 安全 性 、 可 徘 性 和 伸缩 性 ， 减 少 定理 和 开发 应 用 程序 的 时 间 和 
BAS 

3) SharePoint 服务 : 提供 协作 服务 。 通 过 使 用 协作 特性 ， 企 业内 的 用 户 可 以 轻松 创建 、 
管理 和 构建 他 们 的 协作 Web 站 点 ， 并 让 这 些 站 点 为 整个 企业 所 利用 ， 通 过 这 种 协作 和 快速 
开发 的 服务 建立 更 强 的 客户 关系 。 
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4) Dynamics CRM 服务 : 是 一 个 完全 集成 的 客户 关系 管理 系统 ， 提 供 类 似 Salesforce 的 
应 用 级 服务 。 通 过 该 服务 ， 用 户 可 以 从 第 一 次 接触 客户 开始 ， 在 整个 购买 和 售后 流程 中 创建 
并 维护 清晰 、 明 了 的 客户 数据 ; 可 以 强化 和 改进 公司 的 销售 、 和 过 销 和 服务 流程 ， 提 供 快 速 、 
灵活 且 经 济 、 实 惠 的 解决 方案 ; 还 可 以 帮助 用 户 在 日 党 业务 处 理 过 程 中 获得 持续 和 显著 的 
改进 。 

5) Live 服务 : 以 用 户 为 中 心 ， 提 供 诸如 联系 人 信息 、 博 客 和 图 所 等 服务 。 微 软 公 司 将 
Windows Live 的 很 多 功能 和 资源 ， 通 过 Live 服务 封装 以 后 提供 给 软件 广 商 和 开发 人 员 使 用 。 
通过 Live 服务 ， 可 以 存储 和 管理 Windows Live 用 户 的 信息 和 联系 人 , 将 Live Mesh 中 的 文件 
和 应 用 同步 到 用 户 的 不 同 设备 上 去 。 

(2) Microsoft Live 

Microsoft Live 是 微软 公司 推出 的 网 格 托管 的 云 应 用 服务 ， 主 要 包括 Office Live 和 Win- 
dows Live 两 个 系列 的 产品 ， 下 面 将 分 别 加 以 介绍 。 

1) Office Live, Office Live 为 小 型 企业 和 信息 工作 者 提供 了 一 组 新 的 基于 互联 网 的 软件 
服务 ， 可 以 帮助 他 们 建立 、 扩 展 和 管理 其 在 线 业 务 。 这 些 用 户 可 以 通过 Web 设计 、 咨 询 服 
务 和 Office Live 服务 来 获得 新 的 收入 来 源 。 

Office Live 的 服务 主要 如 下 : 

(D Office Web Apps: 是 一 组 Web 版 的 Office 应 用 ， 它 包括 Web 版 的 Word, Excel, Pow- 
erPoint 和 One Note。 任 何 用 户 通 过 浏览 融 无 需 安装 任何 客户 端 软 件 即 可 使 用 这 些 Office 应 
用 ， 同 时 还 可 以 共 且 文件 ， 与 其 他 人 协作 。Office WebApps 不 仅 可 以 通过 微软 公司 的 在 线 服 
务 提 供 ， 比 如 Hotmail, Docs. com 等 ， 也 可 以 通过 SharePoint 软件 运行 于 私有 云 上 。 

D Office 365: 它 免费 提供 最 基本 的 服务 项 目 ， 并 同时 提供 付费 的 升级 服务 项 目 ， 包 括 
更 大 的 在 线 空间 /存储 容量 、Store Manager 以 及 免费 的 广告 管理 工具 来 直接 管理 通过 微软 公 
H] adCenter 注册 的 广告 等 。 

(3) Office Live Add - in: 能 够 将 Office 客户 端 与 Office Live 整合 起 来 ， 利用 Microsoft Of- 
fice 强大 的 本 地 处 理 能 力 以 及 Office Live 提供 的 在 线 服务 ,在 本 地 用 Microsoft Office 打开 、 
编辑 和 保存 Office Live 上 的 文档 。 目 前 Office Live Add -in 支持 Word, Excel 和 PowerPoint, 

2) Windows Live, Windows Live 是 微软 公司 推出 的 一 项 即时 沟通 工具 ， 也 提供 照片 、 空 
由 和 邮件 等 在 线 服务 。 闭 名 的 Windows Live Messenger ( 以 前 叫 MSN) 就 是 Windows Live 中 的 
一 个 产品 。Windows Live 可 以 与 包括 Office Live Workspace 和 Office Live Small Business 在 内 
的 Office Live 合并 成 一 套 服 务 ， 并 有 一 个 统一 的 门户 提供 给 用 户 。 

4. Salesforce 公司 

成 立 于 1999 年 的 Salesforce 公司 ， 是 全 球 按 需 ( 按 需 应 用 、 按 需 付 费 ) 客户 关系 管理 
(CRM) 解决 方案 的 云 平 台 提 供 商 ， 也 是 云 计算 的 积极 倡导 者 之 一 。 目 前 ， 其 在 全 球 的 CRM 
付费 企业 用 户 数 达到 64. 4 万 。 下 面 我 们 将 简单 介绍 Salesforce 公司 的 CRM 云 计算 服务 和 用 
于 扩展 的 Force. com 4 (ILA 1-4) , 

(1) Salesforce. com CRM 

Fe PE TE ao f8] 8. P9] v He HE My. Pr HEURE FE BJ ee AE ELA BJ BA, Salesforce 针对 中 小 企业 推出 
了 基于 互联 网 的 CRM 服务 (www. salesforce. com), FRE T — PPI AI AXE HB. 通过 互联 
网 使 用 企业 应 用 软件 。Salesforce. com CRM 作为 基于 云 计 算 模 式 的 CRM， 除 了 提供 定制 灵活 
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Salesforce Apps 


Sales Service chatter force. oom 
Cloud; Cloud; Celicboroton Cle Custom Cloud 


基础 染 构 


图 1-4 Force. com 平台 

的 客户 管理 和 销售 管理 功能 ， 也 充分 利用 了 云 计 算 模 式 的 特性 ， 多 租户 使 用 模型 、 灵 活 付 费 
模式 ,以 及 容量 弹性 伸缩 。 用 户 可 以 在 线 开 发 、 配 置 、 运 行 和 监控 CRM 系统 ; Sales- 
force. com 的 云 平台 则 负责 根据 负载 对 服务 进行 资源 调整 。 

(2) Force. com 

Force. com 是 Salesforce 公司 基于 PaaS 的 公共 云 计算 服务 。 利 用 这 个 平台 ， 可 以 人 简单 地 
构建 、 购 买 和 运行 业务 应 用 程序 ， 进 一 步 将 计算 资源 抽象 得 更 加 贴近 业务 。Force. com 可 以 
运行 企业 资源 规划 (ERP) 、 人 力 资 源 、 供 应 链 、 资 产 跟 躁 、 合 同 管理 以 及 日 定义 应 用 程序 。 

Force. com 包括 一 组 集成 的 工具 盒 应 用 程序 服务 ，ISV 和 公司 IT 部 门 可 以 使 用 它 构 建 业 
务 应 用 程序 , 并 在 提供 Salesforce. com CRM 应 用 程序 的 相同 基础 架构 上 运行 该 业务 应 用 程 
序 ， 包 括 需要 构建 企业 管理 应 用 的 相关 内 容 ， 而 且 在 单 
包装 中 运行 应 用 程序 。 它 包括 数据 库 、 集 成、 wae Salesforce.com 
辑 、 报 表 、 用 户 界 面 以 及 移动 服务 ， 这 些 都 通过 云 服 务 
在 Salesforce 的 多 租户 平台 上 运行 ， 可 避免 在 复杂 的 服 
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Force. com 的 主要 模块 。 User Interface as a Service 
虚拟 化 扩 术 是 伴随 春 计 算 机 的 出 现 而 产生 和 发 展 
的 ， 虚 拟 化 意味 着 对 计算 机 资源 的 抽象 。 在 云 计算 概念 
如 出 后 ， 虚 拟 化 技术 可 以 用 来 对 数据 中 心 的 各 种 资源 进 
行 虚拟 化 和 管理 ， 在 物理 服务 器 上 虚拟 出 多 个 操作 系统 
和 应 用 程序 ， 以 便 更 好 地 利用 计算 资源 。 因 此 虚拟 化 技 
术 已 经 成 为 构建 云 计算 环境 的 一 项 关键 技术 。 作 为 X86 ”图 1-5 FAI Force. com 的 主要 标志 
体系 结构 虚拟 化 技术 的 代表 ，VMware 公司 基于 已 有 的 虚拟 化 技术 优势 ， 面 癌 云 计算 推出 了 
一 系列 解决 方案 和 新 的 技术 ,尤其 是 其 推出 的 面 回 服务 副 的 虚拟 机 产品 vSphere， 号 称 云 计 
算 的 自 丈 操 作 系 统 。 
VMware 公司 云 计算 战略 : VMware 公司 基于 已 有 的 虚拟 化 技术 和 优势 ， 提 供 了 云 基 础 染 
构 及 管理 、 云 应 用 平台 和 终端 用 户 计算 等 多 个 层次 上 的 解决 方案 ， 主 要 文 持 企 业 级 组 织 机 构 
利用 服务 硕 虚 拟 化 技术 ， 实 现 从 目前 的 数据 中 心 癌 云 计算 环境 转变 。 这 里 根据 VMware 云 计 
算 解 决 方案 的 三 层 架 构 简 要 介绍 VMware 面 回 云 计 算 的 产品 和 技术 ， 如 图 1-6 所 示 。 
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VMware 公司 云 战略 三 层 染 构 如 下 . 

1) 云 基 础 架构 及 管理 层 (1aaS): 云 基础 架 
构 及 管理 层 由 数据 中 心 与 云 基础 架构 、 安 全 产 
品 、 基 础 架构 和 运营 管理 三 大 部 分 组 成 。 数 据 中 
心 和 基础 架构 是 VMware 公司 云 计算 解决 方案 的 


基石 。 在 这 一 层 VMware 公司 的 主要 思路 是 通过 | 
虚拟 化 技术 将 数据 中 心 转变 为 云 计算 基础 架构 ， P ee Director 
然后 通过 VMware 虚拟 化 提供 自助 部 署 和 调配 的 


SaaS 


Zimbra, Print Fusion, VMware Player 
SpringSource 


PaaS 


IaaS 


功能 ,企业 可 以 创建 私有 云 ， 将 IT 基础 架构 作 
为 服务 来 交付 使 用 。 面 向 TaaS 层 的 主要 产品 包 inan 

fi VMware vSphere 系列 和 VMware Server 系列 ， 

后 者 为 免费 版 本 ， 性 能 不 如 vSphere。 
ware 公司 通过 收购 SpringSource 来 构建 基于 云 的 

应 用 开发 平台 ， 用 于 满足 用 户 在 云 计算 模式 与 环 图 1-6 VMware 云 计算 三 层 染 构 

境 下 开发 相应 的 应 用 。SpringSource 框 染 能 通过 动态 、 一 至 的 基础 染 构 满足 各 种 企业 和 Web 
应 用 的 和 需要， 以 及 人 简化 新 应 用 程序 开发 的 开发 者 工具 和 功能 。 因 此 ，VMware 公司 的 云 应 用 
平台 以 SpringSource 应 用 和 VMware vSphere 为 基础 ， 采 用 高 级 消息 队列 协议 (AMQOP) ， 具 有 
无 颖 扩展 的 弹性 数据 管理 技术 和 蜂 物 理 / 虚 拟 环境 可 见 性 的 性 能 监控 和 应 用 管理 机 制 ， 并 能 
实现 私有 云 和 公有 云 之 间 的 迁移 。 

3) 终端 用 户 计算 解决 方案 : 果 面 虚拟 化 产品 。 

在 SaaS Je, VMware 公司 的 定位 还 不 是 特别 明确 ， 主 要 是 基于 时 面 和 应 用 程序 虚拟 化 ， 
提供 f VMware ThinApp, VMware Workstation, VMware Fusion, Zimbra, VMware Player, 
VMware 移动 虚拟 平台 (MVP) 及 VMware ACE 等 产品 。 

VMware 的 云 计算 解决 方案 的 重点 在 于 对 数据 中 心 等 基础 织 构 的 虚拟 化 ， 因 此 在 TaaS 层 
上 VMware 的 工作 较 多 ， 所 以 这 里 重点 介绍 VMware vSphere 结构 、vCloud Service Director 和 
VMware View, 

1) VMware vSphere 3244, VMware 公司 在 原来 的 VMware Infrastructure 3( 以 下 人 简称 VIS) 
基础 上 推出 的 VMware vSphere 被 称 为 业界 首 球 云 计算 操作 系统 。VMware vSphere 主要 包括 两 
个 部 分 : 一 是 虚拟 化 管理 大 VMM 部 分 ， 即 VMware ESX 4; 二 是 用 于 整合 和 管理 VMM 的 
VMware vCenter。 其 架构 如 图 1-7 所 示 。 


2) 云 应 用 平台 层 (PaaS): 在 PaaS 层 ，VM- 


ESX 


图 1-7 VMware vSphere 架构 
虚拟 化 从 结构 上 可 以 分 为 寄居 架构 和 裸 金属 (Bare Metal) 架构: 寄居 架构 指 的 是 在 操作 
系统 的 层面 上 进行 虚拟 机 实现 ，VMware 公司 开发 的 VMware Workstation 系列 就 属于 寄居 架 
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构 ; 禄 金属 染 构 是 在 计算 机 便 件 上 和 卫 接 进行 虚拟 化 ， 是 架构 在 计算 机 人 鲁 件 和 操作 系统 之 间 的 
虚拟 化 。 通 过 裸 金 属 染 构 的 虚拟 化 ， 计 算 机 便 件 卫 接 被 切割 成 奢 干 个 虚拟 机 ， 然 后 在 这 些 虚 
拟 机 上 再 进行 各 目的 系统 和 应 用 程序 的 安 容 。 这 样 一 来 ， 虚 拟 机 的 的 层 是 虚拟 出 来 的 CPU, 
内 存 等 计算 机 便 件 资源 ， 而 不 是 操作 系统 ， 虚 拟 机 之 间 完 全 独立 。 

vSphere 的 底层 就 是 VMware 公司 推出 的 虚拟 机 ESX Server。 通 过 ESX 虚拟 化 数据 中 心服 
务 人 各 ， 将 数据 中 心 转换 为 云 计 算 基 础 架构 ,满足 全 组 织 利 用 内 部 和 外 部 资源 、 低 成 本 地 提 
供 云 服务 的 能 力 。ESX Serve 属于 裸 金 属 织 构 的 虚拟 机 。ESX Serve HIR RETE oS tit HEF 
上 ,在 人 鲁 件 和 操作 系统 之 间 插 入 了 一 个 稳固 的 虚拟 化 屋 。ESX Serve 讲 一 个 物理 服务 硕 划 分 
为 多 个 安全 、 可 移植 的 虚拟 机 ， 这 些 虚 拟 机 在 同一 个 物理 机 服务 硕 上 运行 。 每 个 虚拟 机 都 呈 
现 为 一 个 完成 的 系统 (具有 处 理 天 内存 .网络 .存储 从 和 BIOS), AE Windows, Linux, So- 
laris 和 NetWare 操作 系统 和 软件 应 用 程序 都 可 以 在 虚拟 机 中 运行 ， 无 需 进行 任何 修改 。 

ESX Serve 是 回 IT 环境 提供 虚拟 化 的 分 布 式 服务 的 基础 。ESX Server 最 新 的 版 本 是 VM- 
ware ESX 4, ， 和 之 前 的 VMware ESX 3.5/3 相 比 ， 在 功能 和 特点 上 有 很 多 更 新 和 扩展 ， 其 中 
最 大 的 区 别 在 于 VMware ESX 4 只 文 持 64bit 运行 模式 ， 只 能 安装 在 文 持 64 位 计算 的 X86 物 
理 服 务 大 上 上。 除了 ESX Server, VMware 公司 还 推出 了 精简 版 的 ESXi Server, ESXi Server 与 
ESX Server 的 最 大 区 别 在 于 ESXi Server 去 除了 Service Console, 

VMware ESX 4 主要 功能 体现 在 如 下 三 个 方面 : 

(D 基础 架构 服务 : 即 虚 拟 化 管理 器 (VMM ) 功能 ， 是 整个 产品 的 基础 。 通 过 在 物理 机 上 
的 虚拟 层 可 以 抽象 处 理 术 、 内 存 和 LO 等 资源 来 运行 多 个 虚拟 机 。 虚 拟 机 能 文 持 高 达 8 个 虚 
拟 CPU 和 256GB 内 存 ; 还 支持 热 添 加 功能 ， 可 以 热 添 加 虚拟 CPU 、 内 存 和 网 络 设备 ， 满 足 
应 用 程序 无 颖 扩展 的 功能 。 

D 增强 型 的 基础 架构 服务 : 在 基础 架构 服务 外 ，VMware ESX 4 还 提供 了 能 增强 网 络 和 
存储 LO 性 能 的 VMDirectPath、 能 减少 存储 空间 使 用 的 VSorage Thin Provisioning 和 Linked 
Clone 等 增强 的 功能 。 

3) 应 用 程序 服务 : VMware ESX 4 提供 了 vCenter Agent, HFE vCenter 上 传 本 机 的 管理 
和 性 能 信息 ， 根 据 vCenter 的 指示 协助 vMotion 。 

云 管理 平台 vCenter: vCenter 作为 管理 节点 控制 和 整合 属于 其 域 的 vSphere EAL, Br al 
以 安装 在 物理 机 的 操作 系统 上 ， 也 可 以 安装 在 虚拟 机 的 操作 系统 上 (官方 推荐 )。 从 实现 方 
式 上 看 ， 它 是 基于 Java 技术 的 ， 后 台 连 接 目 市 的 微软 公司 SQL Server Express, tH, aJ E H 
Oracle 数据 库 ， 并 可 以 使 用 其 “链接 模式 ”集成 多 个 vCenter 文 持 大 量 用 户 的 访问 。 在 通信 
方面 ， 它 通过 vSphere 主机 内 部 目 市 vCenter Server Agent 与 ESX Server 进行 联系 ， 并 提供 
API 供 外 部 程序 和 vCenter 客户 问 调 用 。 在 扩展 方面 ， 它 文 持 很 多 第 三 方 的 插件 。 

vCenter 包括 以 下 六 项 基本 功能 : 

D 资源 和 虚拟 机 的 清单 管理 。 该 功能 可 以 列 出 和 管理 vCenter 管理 域内 所 有 的 资源 ( 如 
存储 网络 CPU 和 内 存 等 ) 和 虚拟 机 。 

D 任务 调度 。 文 持 定时 任务 或 者 及 时 任务 (如 vMotion) ， 满 足 各 个 任务 之 间 不 出 现 抢占 
资源 或 者 冲突 的 要 求 。 

(3) 日 志 管 理 。 用 于 记录 任务 和 事件 的 日 志 。 

up 警告 和 事件 管理 。 使 用 户 可 以 及 时 获知 系统 出 现 的 新 情况 。 
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© 虚拟 机 部 署 。 通 过 部 署 回 导 ， 上 传 vApp 和 虚拟 磁盘 等 ， 部 署 虚 拟 机 。 

© 主机 和 虚拟 机 的 设置 。 用 户 可 以 修改 一 些 主机 和 虚拟 机 的 主要 配置 ， 而 且 还 能 对 那 
些 非 党 底层 的 特性 进行 设置 ， 比 如 是 否 开 局 人 硬件 辅助 虚拟 化 。 

vCenter 还 有 以 下 七 个 方面 的 高 级 功能 : 

D 动态 迁移 vSphere 提供 了 vMotion 和 Storage vMotion 技术 ， 分 别 满足 虚拟 机 和 虚拟 磁 
盘 的 热 迁移 。 

D 资源 优化 。VMware 公司 的 分 布 式 资源 调度 ( Distributed Resource Scheduler, DRS ) 4x 
术 ， 通 过 将 虚拟 机 从 资源 紧张 的 主机 迁移 到 资源 剩余 的 主机 等 方式 来 实现 资源 优化 ， 使 得 每 
个 虚拟 机 都 能 找到 合适 的 位 置 。 

D 安全 方面 。VMware 公司 推出 两 大 虚拟 机 安全 技术 : 一 是 推出 VMware API， 对 虚拟 
机 进行 安全 扫描 检测 病毒 和 恶意 软件 ;二 是 推出 VMware Shield Zones ， 主 要 起 到 防火 墙 的 作 
用 ， 可 监视 、 记 录 和 组 织 vSphere 主机 内 部 或 集群 中 主机 之 间 和 虚拟 机 之 前 的 流量 。 

O 容错 。VMware Fault Tolerance 是 VMware 提供 的 虚拟 机 容 灾 技术 。 

© 高 可 用 性 。VMware High Availability 技术 通过 心跳 机 制 来 检测 虚拟 机 的 运行 状态 ， 并 
通过 在 其 他 主机 上 重启 无 啊 应 的 虚拟 机 的 方式 来 保障 系统 的 可 用 性 。 

© 备份 。VMware 采用 了 加 固 备 份 技术 (VMware Consolidated Backup,VMCB)， 在 没有 
he Agent 时 对 多 个 虚拟 机 进行 集中 备份 。 

OD 应 用 部 署 。VMware vApp 基于 开放 式 虚 拟 化 格式 ( Open Virtualization Format, OVF) 协 
N, 将 应 用 程序 转化 为 自 描述 和 自 管理 型 实体 ， 以 方便 部 署 和 降低 管理 开支 。 

2) 底层 架构 服务 vCloud Service Director, vSphere 的 主要 目的 是 将 底层 物理 资源 进行 虚 
拟 和 管理 ， 但 仪 安装 了 vSphere 的 数据 中 心 并 不 能 称 之 为 云 平台 。VMware 公司 通过 vCloud 
Service Director, TE vSphere 架构 上 利用 一 系列 虚拟 技术 ， 提 供 连 接 企 业 虚 拟 环 境 与 私有 云 的 
接口 和 有 目 动 化 管理 工具 ,通过 运行 vCloud Express 与 外 部 服务 而 无 颖 地 连接 ， 癌 外 提供 云 
IaaS 服务 。vCloud Service Director 使 IT 部 门 能 够 通过 基于 Web 的 门户 回 用 户 开放 虚拟 数据 
中 心 ， 并 定义 和 开放 能 部 午 在 虚拟 数据 中 心 的 全 服务 日 录 。 

vCloud Service Director 早期 被 称 为 Redwood 项 目 ， 目 前 该 产品 的 资料 VMware 公司 回 外 
公布 得 不 多 。vCloud Service Director 的 架构 如 网 1-8 所 示 ， 它 具有 数据 库 与 管理 资源 池 的 服 
务 总 线 通 信 的 功能 。 另 外 ， 利 用 基于 VMware vCloud Service Director 提供 云 服 务 的 VMware 7 
司 服务 提供 商 体 系 ， 可 以 将 数据 中 心 容 量 扩展 到 安全 、 兼 容 的 公共 云 中 ， 并 像 管理 企业 的 私 
有 云 一 样 方便 地 管理 。 利 用 基于 策略 的 用 户 控制 技术 和 VMware vShield 安全 技术 ， 保 持 多 租 
户 环境 的 安全 性 和 可 控 性 。 以 虚拟 数据 中 心 的 形式 回 内 部 组 织 高 效 地 提供 资源 ， 提 高 整合 率 
并 简化 管理 ， 降 低 成 本 。 以 渐进 方式 实现 云 计算 ， 利用 现 有 投资 和 开放 标准 ， 以 保证 云 之 间 
的 互 操 作 性 和 应 用 程序 的 可 移植 性 。 

3) wea si y= hh VMware View, VMware View 是 VMware 公司 的 日 面 虚拟 化 产品 ， 通 过 
VMware View 能 够 在 一 人 台 普 通 的 物理 服务 大 上 虚拟 出 很 多 台 虚 拟 葛 面 ( Virtual Desktop ) 供 远 
3] P fH 

VMware View 的 主要 部 件 包 括 : 

(D View Connection Server: View ERRIA, View ZI mM CEt View 代理 ， 将 接 
收 的 远程 更 面 用 户 请 求 重 定 回 到 相应 的 虚拟 果 面 、 物 理 日 面 或 终端 服务 需 。 
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vCloud Service Director 


虚拟 数据 中 心 虚拟 数据 中 心 
(Silver) 


图 1-8 vCloud Service Director 的 架构 

(2 View Manager Security Server; View 安全 连接 服务 器， 是 可 选 组 件 。 

(3) View Administrator Interface. View 管理 接口 程序 ， 用 于 配置 View Connection Server, 
Hier Ay SE eT BT. EAHA ero UE. 

(4) View 代理 : View 代理 程序 ， 安 装 在 虚拟 桌面 依托 的 虚拟 机 、 物 理 机 或 终端 服务 需 
上 ， 安 装 后 提供 服务 ， 可 由 View Manager Server 管理 。 该 代理 具备 多 种 功能 ， 如 打印 、 远 程 
USB 运行 和 单 点 登录 。 因 为 在 VMware vSphere Server 提供 的 虚拟 机 不 包括 声卡 、USB 接口 文 
FESS, DAMME, AAT WORF VMware vSphere Server 提供 的 虚拟 机 连接 到 View Client 计 
算 机 的 相应 设备 上 并 显示 、 应 用 在 客户 端 。 

© View Client; View 客户 端 程序 ， 安 装 在 需要 使 用 “虚拟 桌面 ”的 计算 机 上 通过 它 可 
以 与 View Connection Server 通信 ， 从 而 允许 用 户 连接 到 虚拟 蝎 面 。 

©) View Client with Offline Desktop: 也 是 View 客户 端 程序 ， 但 该 软件 文 持 View FALSE 
面 ， 可 以 让 用 户 “ 下 和 载 ” vSphere Server 中 的 虚拟 机 到 “本 地 ”运行 。 

(D View Composer: 安装 在 vCenter Server 上 的 软件 服务 ， 可 以 通过 View Manager 使 用 
“克隆 链接 ”的 虚拟 机 ， 这 是 View 4 提供 的 新 功能 ， 在 以 前 的 View 3 版 本 中 ， 每 个 虚拟 机 
时 面 乔 能 使 用 一 个 独立 的 虚拟 机 ， 而 添加 该 组 件 后 ， 可 以 让 虚拟 果 面 使 用 “元 隆 链 接 ” 的 
虚拟 机 ， 这 不 仅 提高 了 部 署 虚拟 更 面 的 速度 ， 也 减少 了 vSphere 的 空间 占用 。 


1.6 开源 云 计 算 系 统 概述 


H Hadoop, Eucalyptus 这 两 种 典型 的 开源 云 计算 系统 问世 后 ， 利 用 这 些 开 源 项 目 提供 的 
各 种 工具 ， 研 究 者 可 以 在 实验 室 用 很 低 的 成 本 ， 在 由 普通 机 融 构 成 的 集群 系统 中 模拟 出 近似 
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商业 云 的 环境 ， 这 也 掀起 了 开源 云 计算 系统 研究 的 热 溯 ， 本 方 将 介绍 一 些 其 他 新 兴 的 开源 云 
计算 系统 ， 市 领 谈 者 进入 多 姿 多 彩 的 开源 云 计算 世界 。 

本 贡 对 一 些 开 源 云 计算 系统 作 概 念 性 介绍 ， 重 点 介绍 Cassandra, Hive 和 VoltDB 等 开源 
云 计 算 系 统 。 

1. Cassandra 

Cassandra 42 —42 ry FEAT FR, RA, 4 fi JA TAGS A. EZ I Dy- 
namo 的 分 布 技术 和 谷歌 公司 的 BigTable 数据 模型 ， 更 好 地 满足 了 海量 数据 存储 的 需求 ， 解 
决 了 应 用 与 关系 数据 库 之 间 存 在 的 非 依赖 和 关系。 同时 ，Cassandra 变更 垂直 扩展 为 水 平 扩展 ， 
相 比 其 他 上 典型 的 键 值 数据 存储 模型 ，Cassandra 提供 了 更 为 丰富 的 功能 。 

Cassandra 最 初 由 Avinash Lakshman ( MV. 3h n] Dynamo 的 作者 之 一 ) 和 Prashant Malik 
( Facebook 公司 工程 师 ) 在 Facebook 公司 设计 开发 ，2008 年 Facebook 把 它 贡 献 给 了 开源 社 
区 ， 从 某 种 程度 上 来 说 ， 可 以 把 Cassandra 看 成 是 Dynamo 的 升级 版 本 2.0， 或 者 是 Dynamo 
与 BigTable 的 集合 。Cassandra 的 设计 目标 如 下 : 

1) 高 可 用 性 ， 

2) 最 终 一 致 性 ; 

3) 动态 可 伸缩 ; 

4) 可 以 动态 调整 一 致 性 /持久 性 与 延 时 ; 

5) 点 管理 要 保持 低 开 销 ; 

6) 最 小 化 管理 开销 。 

考虑 到 Cassandra 的 设计 目标 ， 在 一 致 性 、 可 用 性 和 分 区 容忍 度 (CAP 理论 ) 的 折 中 问题 
E, Cassandra 选择 了 AP( 即 可 用 性 和 分 区 容忍 度 ) 。 针 对 基本 的 一 致 性 喻 希 分 布 不 均匀 且 不 
能 根据 节点 能 力 强 昼 分 配 的 缺点 ， Dynamo 让 每 个 点 管理 环 中 的 多 个 位 置 ， 而 Cassandra ik ft 
载 轻 的 市 点 在 环 上 移动 来 实现 负载 均衡 。 在 应 用 中 ，Cassandra 表现 出 了 以 下 六 个 突出 的 
特点 : 

1) 模式 灵活 。 使 用 Cassandra 就 像 文档 存储 ， 可 以 在 系统 运行 时 随 蕊 地 添加 或 者 移 除 
字段 。 而 不 必 提 前 去 解决 记录 中 的 字段 。 特 别 是 在 大 型 部 署 上 将 极 大 地 提升 效 认 。 

2) 真正 的 可 扩展 性 。Cassandra 是 纯粹 意义 上 的 水 平 扩展 。 为 给 集群 添加 更 多 容量 ， 可 
以 动态 添加 节点 而 不 必 重 局 任何 进程 、 改 变 应 用 查询 或 手动 迁移 任何 数据 。 

3) 多 数据 中 心 识别 。 通 过 调整 节点 的 布局 避免 某 一 个 数据 中 心 出 现 放 隐 ， 一 个 备用 的 
数据 中 心 将 至 少 有 每 条 记录 的 完全 复制 。 

4) 范围 查询 。 可 以 设置 键 的 范围 来 进行 键 信 查询 。 

5) 列表 数据 结构 。 在 混合 模式 可 以 将 超级 列 添加 到 五 维 ， 这 使 得 每 个 用 户 索 引 将 变 得 
非常 方便 。 

6) 分 布 式 写 操 作 。 可 以 在 任何 地 方 、 任 何 时 间 集 中 读 或 者 写 任何 数据 ， 并 且 不 会 有 任 
何 单 点 失败 。 

A, Cassandra 系统 正在 得 到 迅 独 发 展 ， 社 交 网 站 巨头 Facebook 公司 采用 Cassandra f£ 
fifi Inbox, Twitter, WebEx 和 Digg AS il tht f. Woe [n] Cassandra 的 迁移 工作 。 

2. Hive 

Hive 起 源 于 Facebook 公司 ， 是 一 个 基于 Hadoop 的 数据 仓库 工具 ， 同 时 也 是 Hadoop 的 
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一 个 主要 子 项 目 。Hive 提供 了 一 系列 的 工具 ， 可 以 用 来 进行 数据 的 提取 、 转 换 盒 加 载 
(ETL), ， 同 时 可 以 实现 对 Hadoop 中 大 规模 数据 的 存储 、 查 询 和 分 析 。Hive 定义 了 一 种 简单 
的 类 似 SQL——HiveQL, HiveQL 使 熟悉 SQL 的 用 户 可 以 方便 地 在 Hadoop 中 查询 数据 。 同 时 
Hive 还 有 很 强 的 灵活 性 ， 没 有 将 用 户 限 制 在 一 个 框架 中 ， 主 要 表现 在 当 Hive 内 建 的 Mapper 
和 Reducer 不 能 满足 用 户 的 需求 时 ， 用 户 可 以 通过 Map/Reduce 将 目 己 开发 的 Mapper 和 Re- 
ducer 加 入 到 Hive， 以 满足 用 户 特 丈 的 需求 。 

Hive 没有 定义 所 谓 的 Hive 格式 的 数据 ， 可 以 在 Thift 上 很 好 地 工作 ， 控 制 分 阳 符 ， 设 置 
可 以 目 己 定义 数据 格式 。 

作为 Hadoop 的 主要 子 项 目 ，Hive 梯 承 开源 的 精神 ， 在 不 断 地 发 展 中 ， 不断 有 新 的 特性 
加 入 其 中 。 现 在 已 经 增加 和 将 要 增加 的 一 些 新 特性 如 下 : 

1) 增加 了 用 于 收集 分 区 和 列 的 水 平 系统 计数 值 的 命令 ; 

2) 支持 在 Partition 级 别 去 更 改 Bucket 的 数量 ; 

3) 在 Hive 中 实现 检索 ; 

4) Jy Hive 增加 并 发 模型 ; 

5) 文 持 在 两 个 或 者 两 个 以 上 列 中 的 差别 选择 ; 

6) 利用 bloom 过 滤 需 提高 连接 的 效果 ; 

7) 建立 Hive 的 授权 结构 和 认证 结构 ; 

8) 在 Hive 中 使 用 位 图 检索 。 

3. VoltDB 

VoltDB 是 Mike Stonebreaker( Postgres 和 Ingres 的 联合 创始 人 ) 领导 团队 开发 的 下 一 代 开 
源 数据 库 管 理 系统 。 在 VoltDB 中 ， 所 有 事务 被 实 现 为 Java 存储 过 程 。VoltDB 大 幅 降 低 了 服 
Fit LURE AB, FELT GU RERPSUS Ab Se a E A Fe ARS, ET VA FES BE 
务 骨 集群 上 实现 每 秒 数 百 万 次 数据 处 理 。 不 同 于 NoSQL 的 key - value 存储 ，VoltDB 能 使 用 
SQL 存 取 ， 并 文 持 传 统 数据 库 的 ACID( 原子 性 .一 致 性 隔离 性 .持久 性 ) 模 型 。 

在 VoltDB 内 部 ， 采 用 并 行 单线 程 从 而 保证 了 事务 的 一 致 性 和 高 效率 ， 由 于 减少 了 锁 的 
管理 、 资 源 管 理 等 开销 ，VoltDB 具有 极 高 的 处 理 效 率 和 速度 。VoltDB 开发 人 员 的 测试 表明 , 
与 一 个 优化 过 的 传统 数据 库 管 理 系统 相 比 ，VoltDB 可 以 达到 后 者 45 倍 的 事务 处 理 速度 。 
VoltDB 还 具有 以 下 一 些 传 统 数 据 库 不 能 同时 具有 的 优 扣 : 

1) 可 以 达到 几乎 线性 的 扩展 ; 

2) 满足 ACID 特性 ; 

3) 提供 相 比 传统 数据 库 好 很 多 的 性 能 ; 

4) 使 用 SQL 作为 数据 库 接 口 。 

VoltDB 文 持 多 节点 并 行事 务 处理 ， 理 论 上 不 存在 节点 上 限 ， 目 前 VoltDB 开发 人 员 大 的 
测试 集群 可 以 达到 20 个 节点 。 同 时 ，VoltDB 还 存在 不 少 限 制 ， 主 要 包括 以 下 四 种 : 

1) 不 支持 动态 修改 Schema; 

2) 增加 市 点 需要 集 止 服务 ; 

3) 不 文 持 xDBC ; 

4) AdHoc 查询 性 能 不 优化 。 

4. Enomaly ECP 


zn 


A #15 理论 部 分 A 


Enomaly ECP 的 全 称 是 Enomaly 弹性 计算 平台 
(Enomaly’s Elastic Compiting Platform) ， 之 前 的 名 称 


是 Enomalism。 它 是 一 个 可 编程 的 虚拟 云 架构 ， 企 
业 可 以 利用 ECP 将 自己 的 数据 中 心 和 云 计算 服务 商 
的 设备 连接 起 来 ， 简 化 不 同 数 据 中 心间 虚拟 机 的 转 
移 及 各 种 云 应 用 发 布 的 过 程 。 
Enomaly ECP 是 一 个 开放 源 代码 项 目 ， 提 供 了 E ae 
一 个 功能 类 似 于 EC2 的 云 计 算 框 架 。Enomaly ECP 
基于 Linux 操作 系统 ， 同 时 支持 Xen 和 KVM( Kernel 
Virtual Machine , kernel 虚拟 机 )。 与 其 他 解决 方案 不 
rm 
同 的 是 ，Enomaly ECP 提供 了 一 个 基于 TurboGears 
Web 应 用 程序 框架 和 Python 的 软件 栈 。Enomaly 
scr a 19 所 下 
Enomaly ECP 具有 以 下 四 个 特性 : 


1) AJM: ECP 提供 目 动 化 的 云 供应 引擎 ， 图 1-9 Enomaly ECP 架构 
用 于 配置 、 管 理 和 部 署 成 组 的 虚拟 机 。 

2) 灵活 性 : ECP 能 够 御 接 将 资源 提供 给 用 户 的 应 用 程序 ， 并 且 可 以 对 获得 授权 使 用 应 
用 程序 者 进行 限制 。 

3) 可 扩展 性 : ECP 的 混合 云 模型 无 颖 连接 使 用 ECP 的 内 部 云 和 外 部 云 提 供 商 。 

4) 整合 现 有 基础 设施 : 通过 ECP 提供 的 丰富 的 API， 用 户 可 以 下 接管 理 和 配置 当前 
系统 。 

目前 Enomaly ECP 有 两 个 版 本 : 一 个 是 仍旧 免费 的 社区 版 (Community Edition); 为 一 个 
是 提供 全 方位 技术 支持 的 服务 提供 商 版 (Service Provider Edition) 。 

5. Nimbus 

Nimbus 是 基于 网 格 中 间 件 Globus 的 作品 ， 从 最 早 的 Virtual Workspace 演化 而 来 ， 提 供 
与 EC2 类 似 的 功能 和 接口 。Nimbus 是 一 个 开源 的 工具 集 ， 它 可 以 把 集群 部 署 到 laas 云 中 。 
Nimbus 通过 一 整套 工具 来 提供 laas 形式 的 云 计 算 解 决 方 案 。Nimbus 属于 科学 云 (Science 
Clouds) 的 一 部 分 ， 该 项 目 创建 的 最 初 目的 是 为 了 搭建 一 个 科学 试验 用 的 云 计算 平台 ， 但 现 
在 其 应 用 已 经 超出 了 这 个 范围 ， 开 始 涉及 其 他 领域 。Nimbus 具有 如 下 四 个 特点 : 

1) EUR WIE Web 服务 接口 一 一 Amazon EC2 WSDL 和 符合 网 格 社区 WSRF 规范 的 接口 ; 

2) 可 以 执行 基于 Xen 管理 程序 ; 

3) 可 以 使 用 如 PBS 或 SGE 调度 器 去 调度 虚拟 机 ; 

4) 定义 了 一 个 可 扩展 涤 构 ， 用 户 可 以 根据 项 目的 需求 进行 定制 。 

Nimbus 的 架构 如 图 1-10 所 示 。Nimbus 的 架构 比较 复杂 ， 涉 及 的 新 概念 较 多 ， 这 里 只 对 
其 中 四 个 重要 的 概念 进行 简单 解释 。 

1) 标准 客户 器 (Reference Client); 以 命令 行 的 方式 访问 服务 ， 全 面 文 持 WSRF 前 台 的 
各 种 特性 ; 

2) WSRF( Web Services Resource Framework , Web 服务 资源 框架 ) ; 

3) RM API; RM 是 Resource Management 的 缩 略 语 ， 也 就 是 资源 管理 ，RMAPI 即 资源 管 
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理 API; 

4) 工作 区 (Workspace) : 实际 上 就 是 一 个 计算 和 点 。 

不 过 并 不 是 所 有 的 平台 都 必须 使 用 图 1-10 中 的 全 部 组 件 ， 图 1-10 中 的 各 个 组 件 之 间 可 
以 采取 不 同 的 组 合 方式 选择 使 用 。 


工作 区 
指示 器 


图 1-10 Nimbus 的 构架 

6. Sector and Sphere 

Yunhong Gu 等 人 设计 实现 了 Sector and Sphere zx 计算 平台 。Sector and Sphere JMH C++ 
语言 编写 的 ， 包 括 Sector 和 Sphere 两 个 部 分 。Sector 是 部 署 在 广域网 上 的 分 布 式 存储 系统 ， 
它 为 了 使 系统 有 高 可 徘 性 和 可 用 性 而 采用 了 自动 的 文件 副本 元 余 方 式 , 已 经 用 于 Sloan 数字 
巡天 系统 。Sphere 是 建立 在 Sector 之 上 的 计算 服务 ， 它 为 用 户 编写 分 布 式 密集 型 数据 应 用 提 
供 了 人 简单 的 编程 接口 。 

Sector 采用 主 / 从 服务 器 模式 ， 其 架构 如 图 1-11 所 示 。 安 全 服务 器 维护 用 户 的 账户 、 密 
码 、 文 件 访问 信息 和 授权 的 从 市 点 的 IP 地 址 ; 主 服务 天 维护 存储 在 系统 中 的 文件 的 元 数据 ， 
控制 所 有 的 从 区 点 的 运行 ， 同 时 和 安全 服务 着 进 行 通信 来 验证 从 蔬 点 、 客 户 服务 顶 和 用 户 ; 
从 节点 用 来 存储 数据 ， 并 对 Sector 客户 端的 请 求 进行 处 理 。 

Sphere 是 以 Sector 为 基础 构建 的 计算 云 ， 提 供 大 规模 数据 的 分 布 式 处 理 。Sphere 的 基本 
数据 处 理 模型 如 图 1-12 Brz s 


E 


安全 服务 器 主 服 务 器 a Pi ee 


s 2 en D | — De] 
MUS ei 输出 流 


图 1-11 Sector 架构 图 1-12 Sphere 的 基本 数据 处 理 模型 
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针对 不 同 的 应 用 会 有 不 同 的 数据 ，Sphere 统一 将 它们 以 数据 流 的 形式 输入 。 为 了 便于 大 
规模 地 并 行 计算 ， 首 先 要 对 数据 进行 分 割 ， 分 割 后 的 数据 交 给 SPE 执行 。SPE (Sphere Pro- 
cessing Engine , Sphere 处 理 引 敬 ) 是 Sphere 的 基本 运算 单元 。 除 了 进行 数据 处 理 外 ，SPE 还 能 
起 到 负载 平衡 的 作用 ， 因 为 一 般 情 况 下 数据 量 远 大 于 SPE 数量 ， 当 前 负载 较 重 的 SPE 能 继 
续 处 理 的 数据 就 较 少 ， 反 之 则 较 多 ， 如 此 就 实现 了 系统 的 负载 平衡 。SPE 处 理 后 的 结果 可 以 
作为 最 终结 果 以 输出 流 形式 输出 ， 也 可 以 作为 下 一 个 处 理 过 程 的 输入 。Sphere Z& im 7J 2i 53 
分 布 式 应 用 程序 的 开发 者 提供 了 一 系列 的 API 包 ， 开 发 者 可 以 使 用 这 些 API 包 来 初始 化 输入 
流 、 加 载 处 理 孔 数 库 、 启 动 Sphere 进程 和 读 取 处 理 结 果 。 具 体 流程 如 下 . 

1) EMA He BYE Sphere 数据 处 理 的 客户 端 请 求 后 ， 主 服务 硕 回 客户 端 发 送 一 个 可 用 
的 从 节点 列表 ; 

2) 客户 端 选 择 一 些 或 痢 所 有 从 和 点 ， 让 SPE 在 其 上 运行 ; 

3) 客户 端 与 SPE 建立 UDT 连接 ; 

4) 流 处 理 函 数 被 发 送 给 每 个 SPE， 并 存储 在 从 节点 上 ; 

5) SPE 打开 动态 库 并 获得 各 种 处 理 吨 数 。 

图 1-13 展示 了 使 用 两 个 Sphere 进程 执行 分 布 式 
排序 的 过 程 。 第 一 阶段 采用 哈 硕 吨 数 扫 摘 全 部 的 数 
据 流 ， 把 每 个 元 素 放 置 到 相应 的 桶 中 。 第 二 阶段 使 
用 SPE 对 每 个 桶 排序 。 在 图 1-13 中 ， 首 先 将 需要 排 
序 的 数据 进行 散 列 (Hash) 处 理 ， 将 它们 比较 均匀 地 
分 布 到 有 序 的 位 置 上 ， 最 好 能 使 每 个 位 置 所 包含 的 
数据 量 大致 相 同 。 比 如 要 排序 的 是 数字 ， 并 且 这 些 CL tet 


mT 
数字 都 在 500 之 内 ,那么 我 们 就 可 以 将 大 于 300 AY 
Ed» 


oem] [eS [ma 
输入 流 


全 部 散 列 到 位 置 A，150 ~ 300 By sg B, 38 
下 的 散 列 到 位 置 C。 这 一 步 完 成 后 再 次 利用 SPE 对 
各 个 位 置 进行 排序 ， 有 具体 的 排序 方法 可 以 自行 选择 。 
经 过 这 两 个 过 程 后 即 可 完成 排序 ， 因 为 此 时 将 A、 


输出 流 
B, C 中 的 数据 一 次 输出 就 是 一 个 有 序数 列 。 | 
这 里 用 一 个 实例 说 明 Sphere 的 作用 。 假设 有 十 图 1-13 ”使 用 两 个 Sphere 进程 
亿 张 天 文 图 像 存 储 在 SDSS 中 ， 要 从 中 找 出 褐 矮星 执行 分 布 式 排序 的 过 程 


的 图 片 ， 用 户 需 要 写 一 个 findBrownDwarf 的 函数 从 大 量 图 片 中 找 出 需要 的 图 片 ， 在 这 个 了 浮 数 
中 ， 把 所 有 图 片 作为 输入 ， 福 矮星 图 片 作为 输出 ，findBrownDwarf( input, output) 标准 的 内 部 
函数 如 下 : 

for each file F in(SDSS slices ) 

for each image I in F 
findBrownDwarf(I,-::) ; 
使 用 Sphere 客户 端的 API， 伪 代码 如 下 : 
SphereStream sdss ; 
Sdss. init(/ * list of SDSS slices * /) ; 


SphereProcess myproc ; 
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Myproc run(sdss,” findBrownDwarf” ) ; 
Myproc. read (result ) ; 

其 中 ，sdss 是 存储 Sector 文件 元 数据 的 流 数据 结构 。 

通过 使 用 Sector 和 Sphere 能 够 将 数据 传输 速度 提升 至 Hadoop 的 两 倍 ， 速 度 提升 的 原因 
之 一 就 是 采用 UDT( 基于 UDP 的 数据 传输 协议 ) ， 这 一 协议 主要 是 针对 极 高 速 网 络 和 大 型 数 
据 集 设计 的 。 

7. abiquo 

abiquo 公司 推出 了 一 套 比 较 完 整 的 云 计算 解决 方案 ， 它 可 以 帮助 用 户 在 各 种 复杂 环境 下 
高 效 地 构建 公有 、 私 有 或 混合 云 。 这 套 方案 主要 包括 三 个 部 分 : abiCloud abiNtense 和 abi- 
Data。 三 个 部 分 可 以 单独 使 用 ， 也 可 搭配 起 来 使 用 。 

abiCloud 是 abiquo 公司 的 最 重要 产品 ， 是 一 款 开源 云 管理 软件 ， 可 以 创建 管理 资源 并 且 
可 以 按 需 扩展 。 该 工具 能 够 以 快速 、 简 单 和 可 扩展 的 方式 创建 和 管理 大 型 、 复 杂 的 IT 基础 
设施 (包括 虚拟 服务 各 .网络 .应 用 和 存储 设备 等 ) 。abiCloud 较 之 同类 其 他 产品 的 一 个 主要 区 
别 在 于 其 强大 的 Web 界面 管理 ， 用 户 可 以 通过 拖 卡 一 个 虚拟 机 来 部 署 一 个 新 的 服务 。 它 多 
许 通过 VirtualBox 部 署 实例 ， 还 支持 VMware, KVM 和 Xen 等 不 同 的 虚拟 机 。 

abiCloud 目前 主要 有 三 个 版 本 : 社区 版 (Community Version), AV f ( Enterprise Ver- 
sion ) 和 ISP 版 (ISP Version ISP. 即 互联 网 服务 提供 商 )。 社 区 版 回 公 众人 免费 提供 ， 企 业 版 则 在 
社区 版 基础 上 添加 了 一 些 高 级 特性 ， 而 ISP 版 通过 扩展 企业 版 的 内 容 来 允许 ISP 出 售 其 云 计 
算 服务 。 

abiCloud 的 基础 构架 如 图 1-14 所 示 。 


第 三 方 应 用 abiCloud 客户 端 
程序 / 云 平台 (flex) 
远程 对 象 连接 


abiCloud 服务 器 端 
(Java) 


数据 库 
abiCloud WS ||abiCloud vws|| abiCloud abiCloud 
) a 应 用 管理 存储 管理 
(Java) (Java) TR des 


插件 管理 


Sie 


插件 管理 


图 1-14 abiCloud 的 基本 构架 
abiCloud 的 基本 构架 清晰 明了 ， 其 中 abiCloud_WS 是 平台 的 虚拟 工厂 ， 主 要 负责 管理 各 
种 虚拟 化 技术 。abiCloud_VMS(abiCloud Virtul Monitor System ) 用 来 监控 虚拟 化 设备 的 运行 状 
态 。 从 图 1-14 中 可 以 看 出 ，abiCloud 除了 客户 端 采 用 了 flex 技术 外 ， 其 他 部 分 几乎 都 是 由 
Java 语言 来 实现 的 。 和 abiCloud 相 比 ， 基 他 两 个 产品 使 用 的 并 不 是 很 多 。AbiNtense 通过 使 
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用 基于 网 络 的 架构 ， 有效 地 减少 了 大 规模 高 性 能 计算 的 执行 时 间 。abiData 由 Hadoop Com- 
mon, Hbase 和 Pig 开发 而 来 ， 它 是 一 个 信息 管理 系统 ， 可 以 用 来 搭建 分 析 大 量 数据 的 应 用 ， 
是 一 种 低 成 本 的 云 存 储 解决 方案 。 

8. MongoDB 

MongoDB 是 由 10gen 公司 文 持 的 一 项 开源 计划 。10gen 公司 云 平 台 可 用 于 创建 私有 云 ， 
是 类 似 于 Google App Engine 的 一 个 软件 栈 ， 提 供与 App Engine 类 似 的 功能 ， 但 有 一 些 不 同 
之 处 ， 通 过 10gen 公司 可 以 使 用 Python, JavaScript 和 Ruby 编程 语言 开发 应 用 程序 。 该 平台 
还 使 用 沙 盒 概念 隔离 应 用 程序 ， 并 且 使 用 自己 的 应 用 服务 需 在 Linux 上 构建 可 靠 的 环境 。 

MongoDB 的 目标 是 构建 一 个 基于 分 布 树 文件 存储 系统 的 数据 库 ， 由 C ++ 语 言 编 写 。 

MongoDB 易于 部 署 、 管 理 和 使 用 ， 主 要 设计 目标 是 高 性 能 、 可 扩展 和 适当 的 功能 。 

MongoDB 主要 有 以 下 6 个 特性 : 

1) 易 存 储 对 和 象 类 型 的 数据 ，; 

2) 高 性 能 ， 特 别 适合 “电容 量 、 值 较 低 ” 的 数据 类 型 ; 

3) 文 持 动态 查询 ; 

4) 文 持 复制 和 故 隐 恢 复 ; 

5) 目 动 处 理 碎片 以 支持 云 计算 层次 上 的 扩展 性 ，; 

6) 使 用 高 效 的 二 进 制 数据 存储 方式 ， 可 以 存储 包括 视频 在 内 的 大 型 数据 。 

MongoDB 的 架构 如 图 1-15 所 示 。 


数据 中 心 A 数据 中 心 B 


图 1-15 MongoDB 的 架构 
考虑 到 系统 存在 失效 的 情况 ，MongoDB 


对 所 存储 的 数据 都 进行 T# 份 将 不 同 的 BN e memcached 

据 副 本 存储 在 不 同 的 数据 中 心 。 对 于 存储 的 刍 / 值 

" Mole un iE Q 存储 (9 MongoDB 
数据 MongoDB 又 进行 了 人 分割 ， 将 不 同 的 分 搬 


存放 在 数据 中 心 的 不 同 服务 咒 上 ， 这 就 解决 及 性 能 
了 大 规模 数据 的 存储 和 查询 问题 。 

图 1-16 所 示 是 MongoDB 与 目前 主流 的 存 
储 方案 进行 的 简单 比较 。 


从 图 1-16 所 示 中 可 以 看 出 ，MongoDB 的 aoe 
最 大 优势 在 于 它 的 均衡 性 ，MongoDB 可 以 在 
功能 以 及 扩展 性 方面 找到 一 个 绝 佳 的 平衡 点 。 图 1-16 主流 存储 方案 对 比 


其 他 存储 方式 要 么 功能 强大 但 扩展 性 和 性 能 较 差 (RDBMS ) ， 要 么 可 扩展 很 好 但 功能 有 限 
(memcached 、 键 / 值 对 方式 存储 ) 。 
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2.1 Hadoop 简介 


Hadoop 是 一 个 分 布 式 系统 基础 架构 ， 由 Apache 基金 会 开发 。 用 户 可 以 在 不 了 解 分 布 式 
拭 层 细 闻 的 情况 下 开发 分 布 式 程序 ， 充 分 利用 集群 的 威力 进行 高 速 运 算 和 人 存储。Hadoop 实 
现 了 一 个 分 布 式 文件 系统 (Hadoop Distributed File System, HDFS) 。HDFS 有 着 高 容错 性 的 特 
点 ， 并 且 设 计 用 来 部 署 在 低廉 的 (Low-ceost) 便 件 上 。 而 且 它 提供 高 传输 率 ( High Throughput) 
来 访问 应 用 程序 的 数据 ， 适 合 那些 有 看 超大 数据 集 ( Large Data Set) 的 应 用 程序 。HDFS 放宽 
了 (Relax)POSIX 的 要 求 (Requirements)， 这 样 可 以 流 的 形式 访问 (Streaming Access) 文 件 系统 
中 的 数据 。 

1. Hadoop 名 字 的 起 源 

Hadoop 这 个 名 字 不 是 一 个 缩写 ， 它 是 一 个 虚构 的 名 字 。 该 项 目的 创建 者 ，Doug Cutting 
如 此 解释 Hadoop 的 得 名 :“ 这 个 名 字 是 我 孩子 给 一 个 标 黄 色 的 大 象 样子 的 填充 玩具 命名 的 。 
我 的 命名 标准 就 是 简短 ， 容 易 发 音 和 拼写 ， 没 有 太 多 的 意义 ， 并 且 不 会 被 用 于 别处 。 小 孩子 
是 这 方面 的 高 手 。 

2. Hadoop 的 起 源 

Hadoop 由 Apache Software Foundation 公司 于 2005 年 秋天 作为 Lucene 的 子 项 目 Nutch 的 
一 部 分 正式 引入 。 它 最 先 受 到 由 Google Lab 开发 的 Map/Reduce 和 Google File System( 合 歌 文 
件 系 统 ,GFS) 的 启发 。2006 年 3 月 ， Map/Reduce 和 Nutch Distributed File System ( Nutch 分 布 
式 文件 系统 ,NDFS) 分 别 被 纳入 称 为 Hadoop 的 项 目 中 。 

Hadoop 是 最 受 欢 迎 的 在 互联 网 上 对 搜索 关键 字 进 行内 容 分 类 的 工具 ,但 它 也 可 以 解决 
许多 要 求 极 大 伸缩 性 的 问题 。 例 如 ， 如 果 要 grep 一 个 10TB 的 巨型 文件 ， 会 出 现 什么 情况 ? 
在 传统 的 系统 上 ， 这 将 需要 很 长 的 时 间 。 但 是 Hadoop 在 设计 时 就 考虑 到 这 些 问题 ， 采 用 并 
行 执行 机 制 ， 因 此 能 大 大 提高 效率 。 

3. HATER 

Hadoop 是 一 个 能 够 对 大 量 数 据 进 行 分 布 式 处 理 的 软件 框架 。 但 是 Hadoop 是 以 一 种 可 
靠 、 高 效 、 可 伸缩 的 方式 进行 处 理 的 。Hadoop 是 可 靠 的 ， 因 为 它 假设 计算 元 素 和 存储 会 失 
败 ， 因 此 它 维护 多 个 工作 数据 副本 ,确保 能 够 针对 失败 的 市 点 重新 分 布 处 理 。Hadoop 4 
效 的 ， 因 为 它 以 并 行 的 方式 工作 ,通过 并 行 处 理 加 快 处 理 速 度 。Hadoop 还 是 可 伸缩 的 ， 能 
够 处 理 折 字 方 (PB) 级 数据 。 此 外 ，Hadoop 依赖 于 社区 服务 上 各 ， 因 此 它 的 成 本 比较 低 ， 任 何 
人 都 可 以 使 用 。 

Hadoop 市 有 用 Java 语言 编写 的 框架 ， 因 此 运行 在 Linux 操作 平台 上 是 非常 理想 的 。Ha- 
doop 上 的 应 用 程序 也 可 以 使 用 其 他 语言 编写 ， 比 如 C ++ 语言 。 
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2.2 Hadoop 架构 


Hadoop 有 许多 元 素 构 成 ， 如 图 2-1 所 示 。 其 最 底部 是 Hadoop Distributed File System( Ha- 
doop 分 布 式 文件 系统 ,HDFS)， 它 存储 Hadoop 集群 中 所 有 存储 方 点 上 的 文件 。HDFS( 对 于 
本 书 ) 的 上 一 层 是 MapReduce 引擎， 该 引擎 由 JobTrackers 和 TaskTrackers 组 成 。 


NameNode 
Networking 


Replicated data blocks 


TCP/IP Metadata 


图 2-1 Hadoop 架构 


2.3 HDFS 


2.3.1 设计 思想 


1. FRIE “KORE, mE “ARAF” 

HDFS 可 能 是 由 上 千 台 机 顺 组 成 (如 Yahoo 的 Hadoop 集群 有 4096 个 节点 )， 任 何 一 个 组 
件 都 有 可 能 一 二 失效 ， 因 此 数据 的 健壮 性 错误 检测 和 快速 、 目 动 恢 复 是 HDFS 的 核心 架构 
目标 。 

2. 流 式 数据 访问 

运行 在 HDFS 上 的 应 用 和 普通 的 应 用 不 同 ， 需 要 流 陈 访问 它们 的 数据 集 。HDFS 的 设计 
中 更 多 地 考 愿 到 了 效 据 批 处 理 ， 而 不 是 用 户 交 互 处 理 。 比 之 数据 访问 的 低 延 迟 问 题 ， 更 关键 
的 在 于 数据 并 发 访问 的 高 硬 吐 量 。POSIX 标准 设置 的 很 多 硬性 约束 对 HDFS 应 用 系统 不 是 必 
需 的 。 为 了 提高 数据 的 厨 吐 量 ， 在 一 些 关 键 方面 对 POSIX 的 语义 做 了 一 些 修改 。 

3. HDFS 应 用 对 文件 要 求 的 是 write-one-read-many 访问 模型 

一 个 文件 经 过 创建 、 写 、 关 闭 之 后 就 不 需要 改变 。 这 一 假设 简化 了 数据 一 致 性 问题 ， 使 
高 吞吐 量 的 数据 访问 成 为 可 能 。 盟 型 的 如 MapReduce 框架 ， 或 者 一 个 web crawler 应 用 都 很 
适合 这 个 模型 。 

4. 移动 计算 的 代价 比 移动 数据 的 代价 低 

一 个 应 用 请 求 的 计算 ， 离 它 操作 的 数据 越 近 就 越 高 效 ， 这 在 数据 达到 海量 级 别 的 时 候 更 
是 如 此 。 将 计算 移动 到 数据 附近 ， 比 将 数据 移动 到 应 用 所 在 显然 更 好 ，HDFS 提供 给 应 用 这 
样 的 接口 。 

5. 在 异 构 的 软 便 件 平台 间 的 可 移植 性 

30 


A $23 Hadoop 理论 A 


2.3.2 Namenode 和 Datanode 的 划分 


一 个 HDFS 集群 由 一 个 Namenode 和 一 定数 目的 Datanode 组 成 ， 如 图 2-2 所 示 。 


HDFS Architecture 


Metadata (Name, replicas, ...): 


/home/foo/data, 3, ... 


Metadata ops " 


e Block cdi 
Read Datanode m Datanode 


Rack 1 o Wie. Rack 2 
图 2-2 HDFS 集群 
Namenode 是 一 个 中 mn 负责 管理 文件 系统 的 namespace 和 客户 端 对 文件 的 访问 。 
Datanode 在 集群 中 会 有 多 个 ， 一 般 是 一 个 布点 存在 一 个 ， 负 责 管理 其 目 吴 节点 上 附 守 的 


存储 。 在 内 部 ， as block, 3XJ* block 存储 在 Datanode 集合 里 。Na- 
menode 执行 文件 系统 的 namespace 相关 操作 ; 例如 打开 . XB, 重 命名 文件 和 目录 : 同时 决 
^E f block 到 具体 Datanode 节点 的 映射 。Datanode 在 Namenode 的 指挥 下 进行 block 的 创建 、 
删除 和 复制 。 

单一 市 点 的 Namenode 大 大 人 徇 化 了 系统 的 架构 。Namenode 负责 保管 和 管理 所 有 的 HDFS 
元 数据 ， 因 而 在 请 求 Namenode 得 到 文件 的 位 置 后 就 不 需要 通过 Namenode 参与 而 直接 从 Da- 
tanode 进行 。 

为 了 提高 Namenode 的 性 能 ， 所 有 文件 的 namespace 数据 都 在 内 存 中 维护 ， 所 以 就 天 生 
存在 了 由 于 内 存 大 小 的 DE M HDFS 集群 提供 服务 的 文件 数量 的 上 限 。 

根据 目前 的 文档 ， 元 数据 (一 个 HDFS 文件 块 ) 占 用 200B， 如 果 是 页 面 抓 取 的 小 文 
fF, ABA 32GB KAÍ m 1. 5 亿 个 左右 的 文件 存储 (有 待 精确 详细 测试 ) 。 


2.3.3 文件 系统 操作 和 namespace 的 关系 


HDFS 文 持 传统 的 层次 型 文件 组 织 ， 与 大 多 数 其 他 文件 系统 类 似 ， 用 户 可 以 创建 目录 ， 
并 在 其 间 创 建 、 删 除 、 移 动 和 重 命 名 文件 HDFS 不 支持 user quotas 和 访问 权限 ， 也 不 支持 
链接 ( Link), ， 不 过 当前 的 架构 并 不 排除 实现 这 些 特性 。Namenode 维护 文件 系统 的 
namespace， 任 何 对 文件 系统 namespace 和 文件 属性 的 修改 都 将 被 Namenode 记录 下 来 。 应 用 
可 以 设置 HDFS 保存 的 文件 的 副本 数目 ， 文 件 副 本 的 数目 称 为 文件 的 replication 因子 ， 这 个 
信息 也 是 由 Namenode 保存 。 
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2.3.4 数据 复制 


HDFS 被 设计 成 在 一 个 大 集群 中 可 以 鉴 机 需 可 基地 存储 海量 文件 。 它 将 每 个 文件 存储 成 
block 序列 ， 除 了 最 后 一 个 block ， 所 有 的 block 都 是 同样 大 小 。 文 件 的 所 有 block 为 了 容错 都 
会 被 复制 。 每 个 文件 的 block 大 小 和 replication 因子 都 是 可 配置 的 。replication 因子 可 以 在 文 
件 创建 时 配置 ， 以 后 也 可 以 改变 。HDFS 中 的 文件 是 write-one， 并 且 严 格 要 求 在 任何 时 候 只 
有 一 个 writer, Namenode 全 权 管 理 block 的 复制 ， 它 周期 性 地 从 集群 中 的 每 个 Datanode 接收 
心跳 包 和 一 个 Blockreport。 心 跳 包 的 接收 表示 该 Datanode 节点 正常 工作 ， 而 Blockreport 包括 
了 该 Datanode 上 所 有 的 block 组 成 的 列表 。 

1. 副本 的 存放 

副本 的 存放 是 HDFS 可 徘 性 和 性 能 的 关键 。 庞 大 的 HDFS 实例 一 般 运 行 在 多 个 机 染 的 
计算 机 形成 的 集群 上 ， 不同 机 架 间 的 两 台 机 副 的 通信 知 要 通过 交换 机 ， 显 然 通 党 情况 下 ， 
同一 个 机 损 内 的 两 个 节点 间 的 市 宽 会 比 不 同 机 织 间 的 两 台 机 融 的 市 宽大 。 在 大 多 效 情 况 
下 replication 因子 是 3，HDFS 的 存放 策略 是 将 一 个 副本 存放 在 本 地 机 架 上 的 市 点 上 , 一 
个 副本 放 在 同一 机 架 上 的 男 一 个 市 点 上 ， 最 后 一 个 副本 放 在 不 同 机 架 上 的 一 个 节点 上 。 
机 织 的 错误 远 远 比 布 点 的 错误 少 ， 这 个 策略 不 会 影响 到 数据 的 可 对 性 和 有 效 性 。173 的 副 
本 在 一 个 节点 上 ， 另 外 273 FE-PE, IR FE ERP RUELARTP, KR CE T 
与 的 性 能 。 

2. 副本 的 选择 

为 了 降低 整体 的 带宽 消耗 和 读 延 时 ，HDFS 会 尽量 让 reader 读 最 近 的 副本 。 如 果 在 read- 
er 的 同一 个 机 架 上 有 一 个 副本 ,那么 就 恋 访 副本。 如果 一 个 HDFS 集群 跨越 多 个 数据 中 心 ， 
ABA reader 也 将 首先 尝试 读本 地 数据 中 心 的 副本 。 

3. SafeMode 

Namenode 启动 后 会 进入 一 个 称 为 SafeMode 的 特殊 状态 ， 处 在 这 个 状态 的 Namenode 是 
不 会 进行 数据 块 的 复制 的 。Namenode 从 所 有 的 Datanode 接收 心跳 包 和 Blockreport, Blockre- 
port 包括 了 某 个 Datanode 所 有 的 数据 块 列表 。 每 个 block 部 有 指定 的 最 小 数目 的 副本 。 当 
Namenode 检测 确认 某 个 Datanode 的 数据 块 副本 的 最 小 数目 ， 那 么 该 Datanode WERA Az 
安全 的 ; 如 采 一 定 百 分 比 ( 这 个 参数 可 配置 ) 的 数据 块 检测 确认 是 安全 的 ， 那 么 Namenode 将 
退出 SafeMode 状态 ， 接 下 来 它 会 确定 还 有 哪些 数据 块 的 副本 没有 达到 指定 数目 ， 并 将 这 些 
block 复制 到 其 他 Datanode , 


2.3.5 文件 系统 元 数据 的 持久 化 


Namenode 存储 HDFS 的 元 数据 。 对 于 任何 对 文件 元 数据 产生 修改 的 操作 ，Namenode 都 
使 用 一 个 称 为 Editlog 的 事务 日 志 记 录 下 来 。 例 如 ， 在 HDFS 中 创建 一 个 文件 ，Namenode 就 
会 在 Editlog 中 插入 一 条 记录 来 表示 ; 同样 ， 修 改 文件 的 replication 因子 也 将 往 Editlog 插入 
一 条 记录 。Namenode 在 本 地 OS 的 文件 系统 中 存储 这 个 Editlog。 整 个 文件 系统 的 namespace， 
包括 block 到 文件 的 映射 、 文 件 的 属性 ， 都 存储 在 称 为 FsImage 的 文件 中 ， 这 个 文件 也 是 放 
在 Namenode 所 在 系统 的 文件 系统 上 。Namenode 在 内 存 中 保存 着 整个 文件 系统 namespace 和 
文件 Blockmap 的 映像 。 这 个 关键 的 元 数据 设计 得 很 紧凑 ， 一 般 占 用 200B 的 内 存 ， 因 而 一 个 
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种 有 4GB 内 存 的 Namenode 足够 支撑 海量 的 文件 和 目录 。 当 Namenode 局 动 时 ， 它 从 硬盘 中 
ERI Editlog 和 FsImage， 将 所 有 Editlog 中 的 事务 作用 ( Apply ) 在 内 存 中 的 FsImage 上 ， 并 将 
这 个 新 版 本 的 FsImage 从 内 存 中 flush 到 人 硬盘 上 ， 然 后 再 truncate 这 个 旧 的 Editlog， 因 为 这 个 
旧 的 Editlog 的 事务 都 已 经 作用 在 FsImage 上 了 了。 这 个 过 程 称 为 checkpoint。 在 当前 实现 中 ， 
checkpoint 只 发 生 在 Namenode 启动 时 ， 在 不 久 的 将 来 我 们 将 实现 支持 周期 性 的 checkpoint, 
Datanode 并 不 知道 关于 文件 的 任何 东西 ， 除 了 将 文件 中 的 数据 保存 在 本 地 的 文件 系统 上 。 它 
把 每 个 HDFS 数据 块 存储 在 本 地 文件 系统 上 隔离 的 文件 中 。Datanode 并 不 在 同一 个 目录 创建 
所 有 的 文件 ， 相 反 ， 它 用 局 发 式 方法 来 确定 每 个 目录 的 最 佳 文 件数 目 ， 并 且 在 适当 的 时 候 创 
建 子 目录 。 在 同一 个 目录 创建 所 有 的 文件 不 是 最 优 的 选择 ， 因 为 本 地 文件 系统 可 能 无 法 高 效 
地 在 单一 日 录 中 支持 大 量 的 文件 。 当 一 个 Datanode 启动 时 ， 它 扫描 本 地 文件 系统 ， 对 这 些 
本 地 文件 产生 相应 的 一 个 所 有 HDFS 数据 块 的 列表 ， 然后 发 送 报告 到 Namenode， 这 个 报告 


就 是 Blockre port, 
2.3.6 通信 协议 


所 有 的 HDFS 通信 协议 都 构建 在 TCP/IP 上 。 客 户 端 通过 一 个 可 配置 的 端口 连接 到 Nam- 
enode， 通 过 ClientProtocol Ej Namenode 交互 。 而 Datanode 使 用 DatanodeProtocol 与 Namenode 
交互 。 从 ClientProtocol 和 Datanodeprotocol 抽象 出 一 个 远程 调用 ( RPC)， 在 设计 上 ，Nameno- 
de 不 会 主动 发 起 RPC, ifte yo AAP A Datanode 的 RPC 请 求 。 


2.3.7 健壮 性 
HDFS 的 主要 目标 就 是 实现 在 失败 情况 下 的 数据 存储 可 靠 性 。 常 见 的 三 种 失败 为 Name- 


node failures, Datanode failures 和 网 络 分 害 ( Network partitions) 。 

1. 便 盘 数据 错误 、 心 跳 检 测 和 重新 复制 

每 个 Datanode 市 点 都 问 Namenode 周期 性 地 发 送 心 跳 包 。 网 络 切割 可 能 导致 一 部 分 Da- 
tanode 跟 Namenode 失去 联系 。Namenode 通过 心跳 包 的 缺失 检测 到 这 一 情况 ， 并 将 这 些 Data- 
node 标记 为 dead ， 不 会 将 新 的 10 请 求 发 给 它们 。 寄 存在 dead Datanode 上 的 任何 数据 将 不 再 
有 效 。Datanode 的 死亡 可 能 引起 一 些 block 的 副本 数目 低 于 指定 值 ，Namenode 不 断 地 跟 踩 需 
要 复制 的 block， 在 任何 需要 的 情况 下 局 动 复 制 。 在 下 列 情况 可 能 需要 重新 复制 : AES Data- 
node 1j 54 X. E BASE Bll dit. Datanode 上 的 人 硬盘 错误 或 者 文件 的 replication | 因子 
LER. 

2. 集群 均衡 

HDFS 支持 数据 的 均衡 计划 ， 如 果菜 个 Datanode 节点 上 的 空闲 空间 低 于 特定 的 临界 点 ， 
那么 就 会 启动 一 个 计划 自动 地 将 数据 从 一 个 Datanode 搬移 到 空闲 的 Datanode。 当 对 某 个 文件 
的 请 求 突然 增加 时 ， 也 可 能 启动 一 个 计划 创建 该 文件 新 的 副本 ， 并 分 布 到 集群 中 以 满足 应 用 
的 要 求 。 这 些 均 衡 计 划 目 前 还 没有 实现 。 

3. 数据 完整 性 

MAS Datanode 获取 的 数据 块 有 可 能 是 损坏 的 ， 这 个 损坏 可 能 是 由 于 Datanode 的 存储 
设备 错误 、 网 络 错误 或 者 软件 bug 造成 的 。HDFS 客户 端 软件 实现 了 HDFS 文件 内 容 的 校 验 
和 。 某 个 客户 端 创建 一 个 新 的 HDFS 文件 ， 会 计算 这 个 文件 每 个 block 的 校 验 和 ， 并 作为 一 
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个 单独 的 隐藏 文件 保存 这 些 校 验 和 在 同一 个 HDFS namespace Fo B&F intr A SEAR, tU 
会 确认 从 Datanode 获取 的 数据 跟 相 应 的 校 验 和 文件 中 的 校 验 和 是 否 匹配 ， 如 有 末 不 匹配 ， 客 
Fm n] De PEM Hil Datanode 获取 该 block 的 副本 。 

4. 元 数据 磁盘 错误 

FsImage 和 Editlog 是 HDFS 的 核心 数据 结构 。 如 有 果 这 些 文件 损坏 了， 整个 HDFS 实例 都 
将 失效 。 因 而 ，Namenode 可 以 配置 成 支持 维护 多 个 FsImage 和 Editlog 的 拷贝 。 任 何 对 FsIm- 
age 或 者 Editlog 的 修改 ， 都 将 同步 到 它们 的 副本 上 。 这 个 同步 操作 可 能 会 降低 Namenode 
秒 能 文 持 处 理 的 namespace 事务 。 这 个 代价 是 可 以 接受 的 ， 因 为 HDFS 是 数据 密集 的 ， 而 非 
元 数据 密集 。 当 Namenode 重 局 时 ， 它 总 是 选取 最 近 的 一 致 的 FsImage 和 Editlog 使 用 。Nam- 
enode TE HDFS 是 单 点 存在 ， 如 果 Namenode MEELI R, 手工 的 干预 是 必需 的 。 目 前 ， 
在 为 一 台 机 器 上 重启 因 故 障 而 停止 服务 的 Namenode 这 个 功能 还 没 实现 。 


2.3.8 数据 组 织 


1. 数据 块 

HAE HDFS 的 应 用 部 是 处 理 大 数据 集合 的 。 这 些 应 用 都 是 写 数据 一 次 ， 读 可 以 是 多 次 ， 
并 且 读 的 速度 要 满足 流 式 谈 。HDFS 支持 文件 的 write-once-read-many, 一 个 典型 的 block 大 小 
是 64MB, 因而 文件 总 是 按照 64MB 切 分 成 chunk 每 个 chunk 存储 于 不 同 的 Datanode 上 。 

2. 数据 产生 步骤 

某 个 客户 端 创建 文件 的 请 求 其 实 并 没有 立即 发 给 Namenode 事实 上 , HDFS 客户 端 会 将 
文件 数据 缓存 到 本 地 的 一 个 临时 文件 中 。 应 用 的 写 被 透明 地 重 定向 到 这 个 临时 文件 。 当 这 个 
临时 文件 累积 的 数据 超过 一 个 block 的 大 小 (默认 64MB) ， 客 户 端 才 会 联系 Namenode, Nam- 
enode 将 文件 名 插入 文件 系统 的 层次 结构 中 ， 并 且 分 配 一 个 数据 块 给 它 ， 然 后 返回 Datanode 
的 标识 符 和 目标 数据 块 给 客户 端 。 客 户 并 将 本 地 临时 文件 flush 到 指定 的 Datanode E, HX 
件 关 闭 时 ， 在 临时 文件 中 剩余 的 没有 flush 的 数据 也 会 传输 到 指定 的 Datanode， 然 后 客户 端 
告诉 Namenode 文件 已 经 关闭 。 此 时 Namenode 才 将 文件 创建 操作 提交 到 持久 存储 。 如 果 Na- 
menode 在 文件 关 财 前 关 财 了 ， 该 文件 将 丢失 。 上 述 方法 是 通过 对 HDFS 上 运行 的 目标 应 用 
认真 考虑 的 结果 。 如 来 不 来 用 客户 端 绥 存 ， 由 于 网 络 速度 和 网 络 墙 窟 会 对 耕 佑 量 造成 比较 大 
的 影 啊 。 

3. 数据 块 复制 

SCA Pm] HDFS 文件 写 数据 时 ， 一 开始 是 写 入 本 地 临时 文件 ， 假 设 该 文件 的 rep- 
lication 因子 设置 为 3， 那 么 客户 问 会 从 Namenode 获取 一 张 Datanode 列表 来 存放 副本 。 然 后 
客户 端 开 始 辐 第 一 个 Datanode 传输 数据 ， 第 一 个 Datanode 一 小 部 分 (4kbit) 一 小 部 分 地 接收 
数据 ， 将 每 个 部 分 写 人 本 地 仓库 ， 并 且 同 时 传输 该 部 分 到 第 二 个 Datanode 市 点 。 第 二 个 Da- 
tanode 也 是 这 样 ， 边 收 边 传 ， 一 小 部 分 一 小 部 分 地 收 ， 存 储 在 本 地 仓库 ， 同 时 传 给 第 三 个 
Datanode。 第 三 个 Datanode 就 仅仅 是 接收 并 存储 了 。 这 就 是 流水 线 式 的 复制 。 


2.3.9 访问 接口 


HDFS 给 应 用 提供 了 多 种 访问 方式 ， 可 以 通过 DFSShell 通过 命令 行 与 HDFS 数据 进行 交 
互 ， 可 以 通过 java API 调用， 也 可 以 通过 C 语言 的 封装 API 访问 ， 并 且 提 供 了 浏览 器 访问 的 
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方式 。 正 在 开发 通过 WebDav 协议 访问 的 方式 。 
2.3.10 空间 的 回收 


1. 文件 的 删除 和 恢复 

用 户 或 者 应 用 删除 某 个 文件 ， 这 个 文件 并 没有 立刻 从 HDFS 中 删除 。 相 反 ，HDFS 将 这 
个 文件 mv 到 /trash 目录 。 当 文件 还 在 /trash 目录 时 ， 该 文件 可 以 被 迅速 地 恢复 。 文 件 在 / 
trash 目录 中 保存 的 时 间 是 可 配置 的 ， 超 过 这 个 时 间 ，Namenode 就 会 将 /trash 目录 中 的 文件 
批量 从 namespace 中 删除 。 文 件 的 删除 ， 也 将 释放 关联 该 文件 的 数据 块 。 并 且 需 要 注意 的 
是 ， 在 文件 被 用 户 删 除 和 HDFS 空闲 空间 的 增加 之 间 会 有 一 个 等 待 时 间 延 退 。 当 被 删除 的 文 
件 还 保留 在 /trash 目录 中 时 ， 如 果 用 户 想 恢复 这 个 文件 ， 可 以 检索 浏览 /trash 目录 并 检索 该 
文件 。/trash 目录 仅仅 保存 被 删除 文件 的 最 近 一 次 拷贝 。vLtrash 目录 与 其 他 文件 目录 没有 什 
么 不 同 ， 除 了 一 点 : HDFS 在 该 目录 上 应 用 了 一 个 特殊 的 策略 来 目 动 删除 文件 ， 目 前 的 默认 
琳 略 是 删除 保留 超过 6b 的 文件 ， 这 个 策略 以 后 会 定义 成 可 配置 的 接口 。 

2. replication 因子 的 减 小 

当 菏 个 文件 的 replication 因子 减 小 ，Namenode 会 选择 要 删除 的 过 剩 的 副本 。 下 次 心跳 检 
测 就 将 该 信息 传递 给 Datanode ，Datanode 束 会 移 除 相 应 的 block 并 释放 空间 ， 同 样 ， 在 调用 
setReplication 方法 和 集群 中 的 空闲 空间 增加 之 间 会 有 一 个 时 间 延 到 。 


2.4 分 布 式 数据 处 理 MapReduce 


最 人 简单 的 MapReduce 应 用 程序 至 少 包含 三 个 部 分 : 一 个 map 了 艺 数 、 一 个 reduce 函数 和 
一 个 main PRIX, main 函数 将 作业 控制 和 国人 
文件 输入 /输出 结合 起 来 。 在 这 点 上 ， 人 人 
Hadoop 提供 了 大 量 的 接口 和 抽象 类 ， 从 
而 为 Hadoop 应 用 程序 开发 人 员 提 供 许 多 
工具 ， 可 用 于 调试 和 性 能 度量 等 。 

MapReduce 本 对 就 是 用 于 并 行 处 理 大 
数据 集 的 软件 框 染 。MapReduce 的 根源 是 
PRICE Zi Fe FA map 和 reduce PIAL, € 
由 两 个 可 能 包含 有 许多 实例 (许多 map 和 
reduce) 的 操作 组 成 。map 函数 接收 一 组 
数据 并 将 其 转换 为 一 个 键 / 值 对 列表 ， 输 
人 域 中 的 每 个 元 系 对 应 一 个 键 / 值 对 。re- 
duce PR ZA BZ I. map 吗 数 生成 的 列表 ， 然 
后 根据 它们 的 键 (为 每 个 键 生成 一 个 键 / 


值 对 ) 缩 小 键 / 值 对 列表 。 
MapReduce 流程 的 概念 流 如 图 2-3 


所 ES ] domain 


这 里 提供 一 个 示例 ， 帮 助理 解 。 假 设 [d 2-3 MapReduce 流程 的 概念 流 
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输入 域 是 one small step for man, one giant leap for mankind, 在 这 个 域 上 运行 map KAOH 

(one,1) ( small,1) (step,1) (for,1) ( man,1) 

(one,1) ( giant, 1) (leap,1) ( for, 1) (mankind ,1 ) 

如 果 对 这 个 键 / 值 对 列表 应 用 reduce 函数 ， 将 得 到 以 下 一 组 键 / 值 对 . 

(one,2) ( small,1) ( step, 1) (for,2) ( man,1) ( giant, 1) (leap,1) ( mankind 1) 

结果 是 对 输入 域 中 的 单词 进行 计数 ， 这 无 疑 对 处 理 索 引 十 分 有 用 。 但 是 ， 现 在 假设 有 两 
^M Ad. 第 一 个 是 one small step for man ; 第 二 个 是 one giant leap for mankind, 可 以 在 每 个 
域 上 执行 map KŠA reduce 图 数 ， 然 后 将 这 两 个 键 / 值 对 列表 应 用 到 另 一 个 reduce KZ, 3X 
时 得 到 与 前 面 一 样 的 结 末 。 换 名 话说， 可 以 在 输入 域 并 行使 用 相同 的 操作 ， 得 到 的 结 采 是 一 
样 的 ， 但 速度 更 快 。 这 便 是 MapReduce 的 “威力 ”; 它 的 并 行 功能 可 在 任意 数量 的 系统 上 使 
用 。 图 2-4 以 区 段 和 迭代 的 形式 演示 了 这 种 思想 。 


1000 Mbit 


100 Mbit 100 Mbit 


TaskTracker/ 一 
NS 


TaskTracker/ TaskTracker/ 
| DataMode | DataNode 


图 2-4 显示 处 理 和 存储 的 物理 分 布 的 Hadoop 集群 
现在 回 到 Hadoop 上 ， 它 是 如 何 实现 这 个 功能 的 ?一 个 代表 客户 机 在 单个 主 系统 上 启动 
的 MapReduce 应 用 程序 称 为 JobTracker。 类 似 于 NameNode， 它 是 Hadoop 集群 中 惟一 负责 欣 
ii| MapReduce 应 用 程序 的 系统 。 在 应 用 程序 提交 之 后 ， 将 提供 包含 在 HDFS 中 的 输入 和 输出 
H3*, JobTracker 使 用 文件 块 信息 (物理 量 和 位 置 ) 确 定 如 何 创 建 其 他 TaskTracker 从 属 任务 。 
MapReduce 应 用 程序 被 复制 到 每 个 出 现 输入 文件 块 的 市 点 ， 将 为 特定 方 点 上 的 每 个 文件 块 创 
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建 一 个 惟一 的 从 属 任 务 。 每 个 TaskTracker 将 状态 和 完成 信息 报告 给 JobTracker。 图 2-4 显示 
了 一 个 示例 集群 中 的 工作 分 布 。 

Hadoop 的 这 个 特点 非常 重要 ， 因 为 它 并 没有 将 存储 移动 到 某 个 位 置 以 供 处 理 ， 而 是 将 
处 理 移动 到 存储 位 置 。 这 通过 根据 集群 中 的 节点 数 调 和 处 理 ， 因 此 文 持 高 效 的 数据 处 理 。 


EIS 


$3: Linux 命令 操作 


3.1 Linux 操作 系统 介绍 


3.1.1 Linux 操作 系统 的 产生 


Linux 操作 系统 是 一 种 计算 机 操作 系统 ， 是 UNIX 操作 系统 的 一 种 克隆 系统 ， 这 是 因为 
Linux 操作 系统 和 UNIX 操作 系统 有 着 很 次 的 渊源 。 

在 计算 机 非常 昂 吐 的 年 代 ， 只 有 在 大 学 或 大 型 企业 中 才能 够 接触 到 计算 机 ， 人 们 非常 硕 
望 多 个 用 户 能 同时 连接 到 一 台 计 算 机 并 同时 使 用 它 。 于 是 ,计算机 科学 家 开始 人 研究 分 时 系 
统 。 分 时 系统 是 将 CPU 的 运行 时 间 分 为 很 小 的 时 间 上 请， 多 个 用 户 任务 可 以 通过 交 符 占有 时 
间 搬 的 方式 实现 快速 交互 使 用 CPU。 由 于 时 间 捕 是 很 短 的 一 段 时 间 ， 以 至 于 每 个 用 户 任 务 、 
每 个 用 户 好 像 在 独占 CPU， 独 占 整个 计算 机 系统 。 在 研究 人 员 的 不 懈 努 力 下 ，1969 年 ， 
AT&T 公司 贝尔 实验 室 开发 出 了 UNIX 操作 系统 。 

1986 Æ, ZZW RAESEK AY Andrew Tanenbaum 教授 为 了 给 学 后 讲授 《计算 机 操作 系 
统 》 课 程 ， 开 发 出 了 Minix 操作 系统 ， 这 是 UNIX 操作 系统 的 一 个 变 体 。1991 4E, Andrew 
Tanenbaum 教授 的 学 生 Linus Torvalds, Hi FX RÆ Ef FAY Minix 操作 系统 不 太 满 意 ， 于 是 
开始 在 80386 PC 上 试 着 改进 Minix 操作 系统 。 

1991 年 8 H, Linus Torvalds 在 comp. os. minix 新 闻 组 贴 上 了 以 下 这 上段 话 : “你 好 ， 所 
有 使 用 Minix 操作 系统 的 人 ， 我 正在 为 80386(486) AT 做 一 个 免费 的 操作 系统 ， 只 是 为 了 
BE, e. 

Linus 最 初 为 目 己 的 这 和 套 系 统 取 名 为 ffeax， 他 将 源 代 码 放 在 了 分 兰 的 一 个 FTP 站 点 上 供 
大 家 下 载 。 该 站 点 的 管理 员 认 为 这 个 系统 是 Linus 的 Minix 系统 ， 因 此 建立 了 一 个 名 为 Linux 
的 文件 夹 来 存放 它 。 于 是 ，Linus 的 “爱好 ”就 成 了 今天 微软 公司 的 头号 对 手 ， 功 能 强大 且 
价格 低廉 的 Linux 操作 系统 。 

1993 年 年 底 至 1994 年 年 初 ，Linux 1.0 操作 系统 终于 诞生 了 | 

Linuxl. 0 操作 系统 已 经 是 一 个 功能 完备 的 操作 系统 ， 而 且 内 核 写 得 系 凑 、 高 效 ， 可 以 充 
分 发 挥 便 件 的 性 能 ， 在 4MB 内 存 的 80386 机 需 上 也 表现 得 非常 好 ， 至 今 人 们 还 在 津津 乐 道 。 


3.1.2 Linux 操作 系统 的 开发 模式 


Linus F 1991 年 10 月 5 日 发 布 了 Linux 操作 系统 的 第 一 个 版 本 Linux 0.0.2， 并 在 网 络 
上 公布 了 Linux 操作 系统 核心 程序 的 源 代 码 ， 同 时 诀 定 以 GPL( 大 众 所 有 版 权 , 又 称 GUN 38 
用 公共 许可 证 ) 的 方式 来 发 行 传播 ， 也 就 是 说 这 个 软件 允许 任何 人 以 任何 形式 进行 修改 和 
传播 。 

随 着 网 络 的 日 益 感 行 ， 越 来 越 多 的 技术 高 超 的 程序 员 加 入 到 Linux 操作 系统 的 开发 与 完 
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善 中 来 。 在 这 个 过 程 中 ， 无 数 的 富有 个 性 和 开创 性 的 程序 员 在 没有 计较 任何 酬劳 的 前 提 下 ， 
完全 自发 地 加 入 到 开发 行列 中 来 。 一 旦 一 个 程序 员 完 成 了 其 中 的 部 分 程序 ， 他 便 会 立即 将 这 
个 程序 发 表 ， 并 人 免费 将 它 发 给 任何 一 个 需要 的 人 ， 而 其 他 的 一 些 程 序 员 人 研究 它 后 将 会 对 它 修 
正和 改 恨 ,然后 将 它 发 表 。 这 样 的 过 程 周而复始 ， 因 此 Linux 操作 系统 的 改进 速度 是 最 快 
的 ， 同 时 它 的 稳定 性 也 是 非常 高 的 。 所 以 ，Linux 操作 系统 并 非 仅 由 Linus 一 人 开发 ， 而 是 
由 全 世界 很 多 个 程序 员 共 同 开 发 ， 当 然 Linus 为 内 核定 了 “调子 ”。 这 种 集 市 型 的 开发 模式 
促成 了 Linux 操作 系统 的 繁 宁 。 可 以 说 ，Linux 操作 系统 完全 是 一 个 热情 、 目 由 、 开 放 的 网 
络 产物 。 


3.1.3 Linux 操作 系统 的 发 展 


Linux 操作 系统 具有 民 好 的 兼容 性 和 可 移植 性 。 大 约 在 1. 3 版 本 之 后 ，Linux 操作 系统 开 
始 向 其 他 硬件 平台 上 移植 ， 包 括号 称 最 快 的 CPU 一 一 Digital Alpha。 所 以 不 要 总 把 Linux 操作 
系统 与 低档 便 件 平台 联系 到 一 起 ，Linux 操作 系统 只 是 将 便 件 的 性 能 充分 发 挥 出 来 而 已 。 
Linux 操作 系统 必 将 从 低 病 应 用 模 扫 到 高 端 应 用 ! 

为 了 使 Linux 操作 系统 变 得 容易 使 用 ，Linux 操作 系统 也 有 了 许多 发 布 版 本 ,发布 版 本 
实际 上 就 是 一 整套 完整 的 程序 组 合 。 现 在 已 经 有 许多 不 同 的 Linux 操作 系统 发 行 版 和 各 目的 
版 本 号 ， 为 了 不 产生 混淆， 先 解 释 一 些 常 提 到 的 术语 。 当 人 们 提 到 的 “Linux” 时 ,一 般 是 
指 “Real Linux”, BIN, ÆA UNIX 操作 系统 的 “心脏 ”。 但 光 有 Linux 并 不 能 成 为 一 
个 可 用 的 操作 系统 ， 还 需要 许多 软件 包 、 编 详 硕 、 程 序 库 文件 、Xwindow 系统 等 。 因 为 组 合 
AAT, MEP MAA], MARA SV AT) AY Linux 操作 系统 发 行 版 。 

越 来 越 多 的 公司 在 Linux 操作 系统 上 开发 商业 软件 或 把 其 他 UNIX 操作 系统 平台 的 软件 
移植 到 Linux 操作 系统 上 来 。 如 今 很 多 IT 业界 的 “大 胶 ”， 如 IBM, Intel, Oracle, Infomix, 
Sysbase, Corel, Netscape, CA, Novell 等 公司 都 宣布 支持 Linux 操作 系统 。 商 家 的 加 盟 弥补 
了 纯 目 由 软件 的 不 足 和 发 展 障碍 ，Linux 操作 系统 迅速 普及 到 广大 计算 机 爱好 者 范围 ， 并 且 
进入 商业 应 用 ， 成 为 打破 某 些 公 司 形成 垄断 的 希望 所 在 。 

Linux 操作 系统 是 爱好 者 们 通过 互联 网 协同 开发 出 来 的 ， 当 然 它 的 网 络 功能 十 分 强大 。 
比如 可 以 通过 FTP, NFS FRR Linux FRYE ARS, HAE RI SS, BERT Linux 操作 系统 
的 发 展 ， 衍 生出 来 的 应 用 恐怕 出 乎 Linus 本 人 最 初 的 预料 ， 如 有 人 用 它 来 做 路 由 需 、 有 人 来 
fit ASL AS. ADORE ITE ARS HA TF TAL Linux 操作 系统 能 做 什么 ?其实 它 不 像 那 
些 中 看 不 中 用 的 操作 系统 ， 不 在 于 你 用 它 能 干什么 ， 而 在 于 你 想 干什么 。 

Linux 操作 系统 是 一 个 在 PC 上 运行 的 UNIX 操作 系统 。Linux 操作 系统 具有 最 新 UNIX 
操作 系统 的 全 部 功能 ， 包 括 真正 的 多 任务 、 虚 拟 存储 、 共 至 库 艺 数 、 即 时 负载 、 优 越 的 存储 
EEFI TCP/IP, UUCP 网 络 工 具 等 。Linux 操作 系统 及 其 发 展 均 符合 Posix 标准 ， 其 内 核 支 
持 Ethernet, PPP, SLIP, NFS, AX.25, IPX/SPX (Novell), NCP( Novell) 等 。 系 统 应 用 包括 
Tellnet, Rlogin, FTP, Mail, gopher, talk, term, news(tin,tmn,nn) 等 全 套 UNIX 操作 系统 工 
具 包 。X 图 形 库 ， 包 括 xterm, fvwm, xxgdb, mosaic, xv, gs, xman 等 全 部 X-Win 应 用 工 
具 。 商 业 软 件 有 Motif、WordPerfect。 中 文 工 具 已 有 Cxterm, celvis, cemasc, cless, hztty, 
cytalk 、ctalk 、cmail 等 ， 可 以 处 理 GB, 、BIG5 HZ 文件 。 此 外 还 有 DOS 模拟 软件 ， 可 以 运 
行 DOS/ Windows 操作 系统 下 的 软件 。 
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在 开始 的 时 候 ，Linux 操作 系统 只 是 个 人 狂热 爱好 的 一 种 产物 。 但 是 现在 ，Linux 操作 系 
统 已 经 成 为 一 种 受到 广泛 关注 和 文 持 的 操作 系统 。 和 其 他 的 商用 UNIX. 操作 系统 相 比 ， 作 为 
目 由 软件 的 Linux 操作 系统 具有 低 成 本 、 安 全 性 高 、 更 加 可 信赖 的 优势。 下 到 今天 ，Linux 
操作 系统 已 经 成 为 一 个 功能 完善 的 主流 网 络 操作 系统 。 


3.2 Linux 操作 系统 常用 的 shell 命令 


3.2.1 基本 命令 
1) 立即 关机 并 重 局 动 ， 执 行 如 下 命令 : 


shutdown -r now 

或 者 reboot 

2) 立即 天 机， 执行 如 下 命令 : 

shutdown -h now 

或 者 poweroff 

3) 等 竺 2min 关机 并 重启 动 ， 执 行 如 下 命令 : 

shutdown -r 2 

4) 等 待 2min 关机 ， 执 行 如 下 命令 : 

shutdown -h 2 

5) 使 用 当前 用 户 的 历史 命令 ， 执 行 如 下 命令 : 

history 

将 会 显示 使 用 过 的 每 条 命令 及 其 序号 ， 可 利用 序号 重复 执行 该 命令 。 例 如 输入 ! 1 并 回 
车 ， 将 会 重复 执行 第 1 条 历史 命令 。 也 可 用 上 下 光标 键 调 出 某 条 历史 命令 ， 然 后 按 回 车 键 重 
复 执行 。 还 可 用 上 下 光标 键 调 出 某 条 历史 命令 ， 修 改 后 按 回 丰 键 执行 。 

6) 清除 当前 用 户 的 历史 命令 ， 执 行 如 下 命令 : 

history -c 

此 时 用 向 上 光标 键 将 会 调 不 出 任何 历史 命令 。 

7) 命令 提示 键 “TAB”: 输入 命令 开头 一 个 或 几 个 字母 ， 然 后 按 1 次 “TAB” 键 ， 系 
统 会 自动 补 全 能 够 识别 的 部 分 ， 再 按 1 次 “TAB” 键 ,系统 显示 出 符合 条 件 的 所 有 命令 供用 
户 选 择 。 

例如 输入 group 后 按 两 次 “TAB” 键 ， 将 会 显示 以 group 开头 的 所 有 命令 。 

8) 显示 内 核 版 本 号 ， 执 行 如 下 命令 : 

注意 : 内 核 版 本 号 不 同 于 软件 发 行 版 本 号 。 例 如 ，RHEL 5.4 的 内 核 版 本 号 是 2. 6. 18- 
164. e15 ， 软 件 发 行 版 本 号 是 5. 4。 

9) 清除 屏幕 ， 执 行 如 下 命令 : 


clear 
10) 显示 操作 系统 时 钟 ， 执 行 如 下 命令 : 
date 
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11) 加 载 光 盘 到 /media， 执 行 如 下 命令 : 

mount /dev/cdrom /media 

12) 翻 载 光盘 ， 执 行 如 下 命令 : 

umount /dev/cdrom 

或 者 

umount /media 

TER: 不 要 在 /media 或 其 子 目 录 中 执行 此 命令 ， 否 则 将 会 出 现 “ 设 备 忙 错误 ”。 
13) 查看 存储 设备 ， 执 行 如 下 命令 : 

fdisk-1 

14) 加 载 U 盘 到 /media， 执 行 如 下 命令 、 

mount /dev/sdbl /media 

15) R U 盘 ， 执 行 如 下 命令 : 

umount /dev/sdbl 

或 者 

umount /media 

注意 : 不 要 在 /media 或 其 子 目 录 中 执行 此 命令 ， 否 则 将 会 出 现 “ 设 备 忙 错误 ”。 
16) ‘Pt shell 命令 ， 执 行 如 下 命令 : 

Ctrl + C 


3.2.2 文件 目录 操作 命令 


1) 显示 当前 的 绝对 路 径 ， 执 行 如 下 命令 : 

pwd 

2) 改变 当前 目录 ， 执 行 如 下 命令 : 

cd /etc/yum 

将 会 把 当前 目录 改 为 /etc/yum。 

3) 回 到 当前 上 日 录 的 父 卓 录 ， 执 行 如 下 命令 : 

cd .. 

4) 创建 目录 ， 执 行 如 下 命令 : 

mkdir /usr/tigger 

5) 删除 目录 ， 执 行 如 下 命令 : 

rmdir /usr/tigger 

注意 : 使 用 rmdir 命令 时 ， 行 删除 的 目录 必须 为 空 。 

6) 列 出 目录 中 的 内 容 ， 执 行 如 下 命令 : 

ls / 

7) 列 出 目录 中 的 所 有 内 容 (包括 隐藏 文件 或 称 为 点 文件 ) ， 执 行 如 下 命 

ls /root -a 

将 会 看 到 以 “. ”开头 的 文件 名 ,它们 称 为 点 文件 。 大 用 命令 “ls /root” 命 令 是 看 不 
到 它们 的 。 

8) 用 长 格式 列 出 目录 中 的 内 容 ， 执 行 如 下 命令 : 


n 
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ls /boot -l 

注意 : 在 Linux 操作 系统 中 ， 寿 某 命令 有 几 个 开关 ， 可 将 这 几 个 开关 合并 在 一 起 。 例 
WU, fre "ls -a -]” 与 命令 “ls -al” 或 者 “ls -la” 作 用 相同 。 

9) 创建 空 文件 ， 执 行 如 下 命令 : 

touch /a. dat 

10) 复制 文件 ， 执 行 如 下 命令 : 

cp /etc/host. conf /root 

将 会 把 目录 /etc 中 的 文件 host. conf 复制 到 目录 /root 中 ， 文 件 名 不 变 。 

11) 复制 整个 子 目 录 ( 不 改变 目录 名 ) ， 执 行 如 下 命令 : 

cp -r /usr/include /root 

将 会 把 整个 子 目录 /usr/include( 不 改变 上 日 录 名 ) 复 制 到 目录 /root 中 。 

12) 复制 整个 子 日 录 ( 改变 日 录 名 ) ， 执 行 如 下 命令 : 

cp -r /usr/include /root/include2 

将 会 把 整个 子 目 录 /usr/include 复制 到 目录 /root 中 ， 并 将 目录 名 从 include 改 为 in- 
clude2 。 

13) 移动 文件 或 给 文件 改名 ， 执 行 如 下 命令 : 

给 文件 改名 : 

mv /root/host. conf /root/ myfile 

移动 文件 : 

mv /root/myfile / 

移动 文件 同时 改名 : 

mv /myfile /root/myfile2 

14) 删除 文件 ， 执 行 如 下 命令 : 

rm /root/myfile2 

按 “y” 键 确认 。 

rm -f /a. dat 

不 需 确认 。 

15) 删除 非 空 目录 ， 执 行 如 下 命令 : 


mkdir /root/mysub /root/mysub/new 


rmdir /root/mysub 

系统 提示 日 录 非 空 。 

rm -rf /root/mysub 

系统 无 错误 提示 。 

ls /root 

将 看 到 目录 /root 中 已 经 没有 mysub 目录 。 

16) 分 屏 显 示 文 件 内 容 ， 执 行 如 下 命令 : 

more /etc/services 

按 空 格 键 显 示 下 一 屏 ， 按 “q” 键 返回 命令 行 状态 。 

注意 : more 作为 管道 命令 时 ， 可 与 其 他 一 些 命 令 结合 ,例如 : 
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ls /etc | more 

history | more 

17) 显示 文件 内 容 ， 执 行 如 下 命令 : 

cat /etc/services 

18) 合并 文件 ， 执 行 如 下 命令 : 

cat /etc/resolv. conf /etc/yum. conf >/b. dat 

执行 如 下 命令 进行 验证 : 

ls -| 7b. dat 

显示 该 文件 长 度 为 814B。 

也 可 用 两 条 命令 实现 同样 的 功能 : 

cat /etc/resolv. conf >/c. dat 

此 时 该 文件 长 度 为 26B。 

cat /etc/yum. conf > >/c. dat 

此 时 该 文件 长 度 为 814B。 

注意 : > 和 > > 是 重 定 回 符 号 ， 右 重 定 加 的 文件 已 经 存在 ， 则 使 用 > HHI ANA 8 s 
原来 的 内 容 ， 而 使 用 > > 时 将 用 新 内 容 添 加 到 原来 内 容 的 后 面 。 


3.2.3 vi 编辑 器 


创建 或 修改 某 一 文本 文件 ， 执 行 如 下 命令 : 

vi /b. dat 

vi Fa AA WPR: 命令 模式 和 编辑 模式 。 

vi 启动 后 进入 的 是 命令 模式 ， 在 命令 模式 中 按 “i” 键 就 可 以 进入 编辑 模式 。 在 编辑 模 
式 中 按 “Esc” 键 就 可 以 返回 到 命令 模式 。 

按 i 键 后 开始 编辑 。 编 辑 完成 后 ， 按 “Esc” 键 返回 到 命令 模式 ,， 输入“. wq” 后 按 回 
车 键 保存 文件 后 退出 ; 或 者 输入 “: q!” 后 按 回 车 键 不 存盘 退出 。 

若 要 删除 光标 所 在 行 ， 则 先 返回 到 命令 模式 ， 再 按 两 次 “d” 键 。 符 要 删除 从 光标 所 在 
行 开 始 向 下 的 若干 行 ,例如 5 行 ， 则 先 返 回 到 命令 模式 ， 按 “5” 键 ， 再 按 两 次 “d” 键 。 
删除 的 内 容 同 时 进入 vi 缓冲 区 。 

若 要 将 vi 缓冲 区 的 内 容 粘贴 到 当前 位 置 的 后 面 ， 则 先 返回 到 命令 模式 ， 再 按 “p” 键 。 

若 要 撤销 最 近 一 次 的 操作 ， 则 先 返 回 到 命令 模式 ， 再 按 “u” 键 。 重 复 按 “u” 键 可 以 
撤销 最 近 的 多 次 操作 。 

若 要 将 光标 所 在 行 复制 到 vi 缓冲 区 ， 则 先 返 回 到 命令 模式 ， 再 按 两 次 “y” 键 。 若 要 将 
从 光标 所 在 行 开 始 癌 下 的 知 干 行 ( 例 如 5 行 ) 复 制 到 vi ZvpRPC, WY Sek LS aS EX, TE 
“5” 键 ,再 按 两 次 “y” 键 。 

若 要 从 当前 位 置 开 始 向 下 查找 某 一 字符 串 ， 例 如 HOSTNAME, ， 则 先 返 回 到 命令 模式 ， 
再 输入 /HOSTNAME 后 按 回 车 键 。 知 要 继续 向 下 查找 ， 则 再 输入 “7/” 后 按 回 车 键 。 

vi 在 编辑 某 一 个 文件 时 ， 会 生成 一 个 临时 文件 ， 这 个 文件 以 “. ”开头 并 以 “. swp” 结 
尾 。 正 常 退出 该 文件 自动 删除 ， 如 果 意 外 退出 例如 忽然 断 电 ， 该 文件 不 会 删除 。 此 时 手动 删 
除 该 文件 即 可 。 


fash 
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: set nu ESRB 
: setnonu 取消 行 号 


3.2.4 ”软件 包 安 六 命令 
1) 碍 看 所 有 已 安 厄 的 软件 包 ， 执 行 如 下 命令 


rpm -qa | more 
2) BAAR RNA PET EAT BYTE EL, POUT OP AS 
rpm -qa | grep net 
3) 验证 所 有 已 安 妆 的 软件 包 ， 执 行 如 下 命令 
rpm -Va 
注意 : 该 命令 会 列 出 所 有 目 从 包 安 装 后 系统 和 用 户 做 过 修改 的 文件 。 
4) 查看 已 安 疙 的 某 个 软件 包 的 用 途 ， 执 行 如 下 命令 : 
rpm -qi net-tools-1. 60-37. ELA. 8 
5) 查看 系统 中 某 个 文件 属于 哪个 软件 包 ， 执 行 如 下 命令 
= -qf /sbin/ifconfig 
结果 应 显示 该 文件 属于 net-tools-1. 60-102. e16. i686 。 
6) 安 疙 某 个 软件 包 ， 执 行 如 下 命令 : 
rpm -ivh Se 


注意 : -v 为 显示 信息 选项 ，-h 为 显示 进程 选项 


4.1 CentOS 操作 系统 的 安装 


4.1.1 实验 目的 


1) 熟悉 Linux 操作 系统 安装 过 程 。 
2) TB NUES E. 


4.1.2 实验 设备 


1) 便 件 : PC, 
2) 软件 CentOS 5. X, 


4.1.3 实验 内 容 
在 PC 上 安装 CentOS 操作 系统 。 
4.1.4 实验 步骤 


1) 系统 版 本 : CentOS 5.5， 将 镜像 刻 成 光盘 ， 设 置 BIOS 将 CD-ROM 设置 为 第 一 启动 。 
安装 启动 界面 如 图 4-1 所 示 。 


[Fi-Hainl [F2-üptions] [F3-Generall [Fd-Eernell [F5-Rescue] 


图 4-1 OREJA 
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2) 通过 提示 ， 按 “ENTER” 键 进入 图 形 安 装 模 式 ， 如 图 4-2 Pra. 


; bitmap version 4.39 
TCP bic registered 


MET: Re ùj istered pro tocol fami ly Ll? 
Using IPI Ho-Shortcut mode 
ime: tsc clocksource has been installed. 
I: (supports 3B 31 54 35) 
Initalizing network drop monitor service 
Freeing unused kernel memory: 226k freed 
* protecting the kernel read-only data: 489k 


anaconda installer init version 11.1.2.2H9 starting 
Hunting proc filesystem... done 
creating -dew filesystem... done 
ounting -devepts Cunix9B pty) filesystem... done 
ounting ^sys filesystem... done 
input: AT Transla ted Set Z Rey board as -celass/inpute input 
i npu t: ImPS-2 Generic Hheel House as “classi npu t # i npu t1 
trying to remount root filesystem read write... done 
mounting “tmp as ramfs... done 
running install... 
running “sbin-loader 


图 4-2 ”信息 检测 界面 
言 息 检测 ， 开 始 安 装 ， 如 图 4-3 所 示 。 


Welcome to CentOS 


CD Found f 


To begin testing the CD media before 
installation press OK. 


Choose Skip to skip the media test 
and start the installation. 


m ma 


£Tab»^4£ült-Tab?» between elements tSpace> selects | «Fiz> next screen 


图 4-3 ”选择 图 形 界面 安装 

3) 检测 安装 媒介 ， 比 如 我 们 是 用 光盘 安装 ， 即 为 检测 光盘 安装 数据 的 完整 性 ， 我 们 可 
通过 按 “TAB” 键 选择 “OK” 或 者 是 “Skip”， 这 里 选 的 是 “Skip”， 即 跳 过 。 

安装 程序 的 第 一 个 图 形 界面 如 图 4-4 所 示 。 

4) 选择 安装 时 的 语言 ， 这 里 选择 简体 中 文 ， 如 图 4-5 所 示 。 

5) 键盘 语言 ， 默 认 即 可 ， 如 图 4-6 所 示 。 

6) 这 是 一 块 新 硬盘， 没有 初始 化 ， 也 没有 分 区 ， 所 以 提示 进行 初始 化 ， 如 图 4-7 所 示 。 

7) 便 盘 分 区 方案 ， 系 统 默认 是 按照 系统 定义 好 的 方式 进行 划分 ， 但 是 在 这 里 ， 选 择 手 
动 ， 如 图 4-8 所 示 。 

8) 最 简单 的 就 是 创建 两 个 分 区 ， 一 个 根 一 个 交换 分 区 ， 如 图 4-9 和 图 4-10 所 示 。 
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= b M C Z nt O s 


— Lens] 


图 4-4 ”安装 程序 的 第 一 个 图 形 界面 


&5 CentOS 


What language would you like to ute during the 
" installation process? 


Chinese(Traditional) (S) 
Croatian (Hrvatski) 

Czech (Cektina) 

Danish (Dansk) 

Dutch (Nederlands) 

English (English) 

Estonian (eesti keel) 


Finnish (suomi) 
French (Francais) 
German (Deutsch) 
Greek (EAArmaká) 
gujarati 


图 4-5 ”选择 语言 界面 


图 4-6 选择 键盘 语言 界面 


SAH sda HSE (VMware, vMware Virtual S 
20473 MB) . 


TERES EHE RE EHE UA HC BERIEUPICNERE 
EER- 


ERDAGI TESA AES 7 


DE | eee | | > Fro 


图 4-7 清除 数据 界面 


TERNIHERNNRSTSESELNSET: 
$3 CH « MERTEGRNIEELUSSE » eT LAR MET CIBO ECRIRE, « 


O eae 


Ee eh ees) 


VMware, Vea Virtual S 


Bg xS Ee 


ELI 


法 加 分 区 


474-748 VMWare, VMware Virtual:S 


CHBAESEQ 


— 


O RM RAID 设 音 / 心 


ELIT > T—P00 
: KITE 


图 4-9 配置 根 分 区 界面 


ECHELLE - [win] 


| BrnEERJ4A 
|- me | O BeEZIBEE d MBXLD : 
T7 WEE. C) RAAB FREE GU 
= fdevicda a 
Hdewisaai | O Rein 
= US — 


| | | || Paro 
O BE PAu uu 


Date | 


图 4-10 配置 交换 分 区 界面 
9) Æ CentOS 中 ，3 引 导 程 序 采 用 的 是 GRUB， 如 图 4-11 所 示 。 


@) GRUB PERERA Re AE /devisda 上 * 
O XS RRR eRe * 


SE a pliko tirikdir. ER ENS etre mer a | even har * BEIC SEE EE eee 
Sc 点 击 “ 宰 加 ”* LS eae + ER ee TEL" 


tise oe |[ wow | 
EI Centos Jewsdal |! me | 
RD) | 


5 | S ERE PEVETRIAT GIR Pee e P ae = ee IR — Te * 
A Pee 
D RE |S RSD) 


IsE y | esso | [&r-2o] 


图 4-11 GRUB 引导 程序 
10) 配置 网 络 连接 方式 及 主机 名 ， 如 图 4-12 所 示 。 


E CentOS 


FAL d 
引导 时 济 活 VE va FRED Pv | ae) | 


za eth DHCP Auto 


ERS 
BRS : 
可 通过 DHCP GFE) 


O FLEE 
EH 


(WE : hast.domain.com) 


> 下 一 (ND | 


m 
| 


| ane | ES 


图 4-12 ”配置 网 络 连 接 方式 及 主机 名 
11) 选择 所 在 区 域 ， 如 图 4-13 所 示 。 


H eR UTC(S) 


‘Bare | eine | 


图 4-13 ”选择 所 在 区 域 
12) 为 根 用 户 root( 根 ) 设 置 一 个 密码 ， 在 这 里 root 是 系统 管理 员 拥 有 至 高 的 权利 ， 所 以 


| amaw | | oF-20| 


图 4-14 设置 根 用 户 密 码 


13) 选择 和 保 面 环境 ， 和 常见 的 有 Gnome, KDE, HEE Gnome， 如 图 4-15 所 示 。 


CentOS HRELLUSE BEBLI — RAAT- PERMER f- ^ NER MI NCERURGERT DUE PETRUS EOEHEU T 
zT 


El Desktop- Gnome 
[] Desktop - KDE 

O Server 

L] Server - GUI 


Pee PECES ERU + 
Ll] Packages from CentOS Extras 


|$ A 7773 


HARTERA HAHEI » ERE AEEA EEE * 
© TNEDERB (D O BEER 


| AERD | 


K| 4-15 ”选择 桌面 环境 


检查 安装 时 的 依赖 关系 如 图 4-16 所 示 。 


CentOS AAU EEE KNURT — Rr MPISUNSRIEE + fin] DS PER ee 
2 

5] Desktop = Gnome 

L] Desktop - KDE 


Ll Server 


L1 Server-- Uii —€—— sm 


EMER ERASERS. — 
SAAR O O O 


[] Packages from CentOS Extras 


|+ (A) EMH | 


Iiis] GOSHEN CUTER REREKAI EAAS + 
e 稍 局 定制 (D O 现在 证 制作) 


IE amw | 


图 4-16 检查 安装 时 的 依赖 关系 
14) 点 击 “ 下 一 步 ” 按 钮 正式 安装 ， 如 图 4-17 Br. 


@ CentOS 


Ah “Fit” SIRES 
Centos. 

EPISRRE: SHAE 
root/install.log X [Sci SE 
EAA 


EMSs: HSS 
root/anaconda-ks.cfg IPP 


kickstart ti * 


(Darme | | aarm | | er pew! 


图 4-17 开始 正式 安装 
接 下 来 的 步骤 如 图 4-18 ~ 图 4-24 所 示 。 
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cs CentOS 


ZEB / MARK... 


CentOS -5 


Community €NTerprise Operating System 


| DE | 


图 4-18 格式 化 文件 系统 


A. 


: EEF SERIE UII. 


CentOS -5 


Community €MTerprise Operating System 


(Daneaw | 


图 4-19 ”开始 安装 进程 


a 


( ZS 2 


Welcome to CentOS 5 ! 
3 Centum 
wees Linux sri buton deed foam 


r » | 1 1 
ly geonided to Ie pubis by s pecoemiment Harzh 
ILE see nde 


w EH p i 


SSS eee 


EGR Ss tedata-2010¢-1.05.noarch (1 ESR) 
HERE 


图 4-20 安装 中 


AME: FSR es = 
RHEE SiO PRS SrA: Se “EIS” BSE ISR: 


| Bare | s ddaniso | 


Probing for video card: UMuare SUGA II Adapter 
Attempting to start native X server 
Waiting for X server to start...log located in ¢tmp-ramfs-*. log 
1...2...3...4...5... X server started successfully. 
starting graphical installation... 
sending termination signals, . .done 
sending kill signals...done 
disabling Swap... 
A^impzsdaz 
anmounting Filesystems... 
^mnt^runtime done 
disabling devr loopt 
fprocebus/usb done 
‘proc done 
“devepts done 
f/sys done 
^tmp^ramfs done 
feelinux done 
“mnnt/esysimagersys done 
fmntersysimagesproc done 
“nntssysimagesselinux done 
“mntssysimagesdey done 
ÁAmntasgzsimage done 
rebooting system 


Al 4-22 重启 中 


Booting ‘CentOS (2.6.18-194.e15)° 


root 6thdB,HB) 
Filesysten type is ext2fs, partition type BxB3 
kernel “boot valinuz-2.6.18-194,el5 ro root-LRBEL-^ rhgb quiet 
lILinux-bzlmHage, setup-HxleBH, size-Hxlc/f54]l 
initrd ^boot^/initrd-2.5.,18-184.815. inq 
[Linux-initrd ? Hxl1dH5fHHB, Hx2BHcHd bytes] 


eanory for crash kernel (BxH to 8x8) notwithin permissible range 


图 4-23 ”装载 内 核 
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图 4-24 启动 信息 
15) 安装 完成 后 ， 还 需要 一 些 简 单 的 配置 ， 根 据 提 示 进 行 即 可 ， 如 网 4-25 所 示 。 


p 欢迎 


see La (AEN RERE LC «ESS |S ET + ， 请 点 击 
SFM) “Fe” PRIER 


~ 


G) ER as we 
CentOS ~~“ 


| > ist | 


图 4-25 进入 基本 配置 
16) 这 里 的 防火 增 是 指 iptables, KKB AEH, BMRA Tao, lk 4-26 


HIZR o 
mu m TE: | 
Biki pe 防火 墙 
SELI 
SARN NERT EAIBHI— Tei Te EL ERA LRE S TEUA 
Hae ful | AEST HERES - 未 经 验证 的 系 颖 对 您 的 系 绩 进行 访问 A RE 5T LU ge] 
wk | R? 
E-E | E 
ETHER: B UL eae 
TERES : 口 FTP [4] 
L] NF54 
E] SSH 
L] samba | 
[] Teinet | 
O WWW (HTTP) = 
> Reo 


| emm | | > wate | 


图 4-26 ”配置 防火 载 
17) SELinux 选项 是 更 安全 的 行为 控制 ， 设置 为 强制 ， 如 图 4-27 所 示 。 


ae 


(E z - 
M Ee SELinux 
^ &ELiImux 
H Nf Rit ju] SELinux (Security Enhanced Linux) HHA T Ho" 89883 Linux FS 
"TT EETA ERDIDUEDEGHUBIDS RSET SRS RES: SEHE 
声卡 PAPEL ae + 


SREI- SELinux 设置 : | 强制 


ae 


| amre | | > mae | 


图 4-27 配置 SELinux 选项 
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18) 系统 时 间 一 般 不 用 设置 ， 如 图 428 所 未。 


- 日 期 和 时 间 


SE Linux 


s WS XEBMI Hea] * 
> HI 33 jul ee 
a TT | | EHNERURTIRICD | FREE TETUR Ga) 
EE | | Bm E 
Huxa | | *9we* AA t 当前 时 间 : 04:55:24 
= = z dió 路 时 站 六 [a B 
1 2 3 4 5 6 7 z " 
B 9 D t D B H APO: | | 
5 6 n EJ è d A = z 
: |e 3 
2 23 MM 5 3 2 Z ma | 上 
o 一 Z2 


| a mD | | > wate | 
SS 


图 4-28 配置 系统 时 间 
19) 我 们 知道 ，root 拥有 最 高 的 权利 ， 所 以 让 root 登录 进去 不 太 安 人 全， 所 以 设置 一 个 普 
通用 户 ， 需 要 的 时 候 切 换 到 root， 如 图 4-29 所 示 。 


Ra 创建 用 户 


SEDE PMT RFE GEE) 的 个 人 用户 际 号 * 要 创建 个 人 了 账号， 提供 以 下 


HNOu dum] (ul [1—7 1. * 
* GERI 
EE FAP : | | 
RN Z EQ: , | 
Hx: | 
确 过 口令 zn) : | | 


部 果 您 需 李 使 用 网络 认证 ， (0 Kerberos 或 NIS WA “ORRE” RH+ 
RPG ERY... 


FI Tm 
| SRE | | emo 
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20) 声卡 测试 没什么 用 ， 服 务 右 上 不 需要 声卡 ， 如 图 4-30 所 示 。 


de E 卡 


SE Limi 
5 Edu SE MIT 声卡 。 
m— i HE” SARE SE ME ; 第 二 
rg 人 第 三 组 声音 是 中 心声 通 * 
+ Pee 
MEXA IT HL - 


三 商 : Ensoniq 
型 骂 : ES1371[AudioPCI-97] 
B: snd:ens1l371 


Bi-E gnat 


BEIDE 
PCM if: | Es1371DAC2/ADC | 


CentOS-5 ECTNET- 


图 4-30 ”声卡 测试 
21) 安装 一 些 其 他 的 软件 ， 这 里 就 不 需要 了 ， 需 要 的 时 候 目 行 安 装 ， 如 图 4-31 Br. 


5 "xa 
SELinux a 
amna EREA 
AHF 
PU HE & A 附 各 光盘 【安村 -| 
| esmee]| age | 
图 4-31 we PREC AE 


A 22% 基础 实践 部 分 A 
22) 系统 登录 ， 用 刚才 创建 好 的 用 户 名 和 密码 登录 ， 如 图 4-32 所 示 。 


& Centos 


T 
beca fhe t. Lost Iberi Eri 


图 4-32 系统 登录 界面 
23) 至 此 CentOS 软件 安装 成 功 ， 如 图 4-33 所 示 。 


Footslocalhost:— 
Xp SiG) EW Sa EG) MEDIO 


rootélocalhast '|7 unam 


[d 4-33 ”安装 成 功 界 面 
24) 修改 三 台 机 天 的 也 地 址 ， 分 别 是 192.168.0. 101、192. 168. 0. 102 和 
192.168.0. 103, FT mifit 255.255.255.0, 
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42 集群 搭建 


4.2.1 实验 目的 

1) 熟悉 Hadoop 集群 搭建 过 程 。 

2) Æe Hadoop 核心 程序 配置 方法 。 
4.2.2 实验 设备 

1) 便 件 : 云 计 算 实 验 一 体 机 、PC。 

2) 软件 : SecureCRT, FileZilla, JDK 安装 包 ，。 
4.2.3 实验 内 容 


1) 把 安装 程序 上 传 到 集群 并 有 旦 安装 JDK, 
2) 无 密 钥 SSH 登录 。 
3) 核心 程序 配置 。 


4.2.4 实验 步骤 


1. 针对 集群 中 的 所 有 机 禹 进行 配置 

1) 打开 连接 工具 SecureCRT， 如 图 4-34 ~ 图 4-36 所 示 。 
"- TEOR E JA 
T 2013/3/21 11:08 — Xt 

2013/3/21 11:01 — 3répm 


R| 4-34 连接 工具 


"EIE LU X 
2013/3/21 11:01 seem | 
2013/3/21 10:50. — 360FgR RAR T$ 7.860 KB 


图 4-35 SecureCRT 工具 
2) 打开 传输 工具 FileZilla， 如 图 4-37 ~ 图 4-39 所 示 。 
3) 连接 三 台 主 机 ， 点 击 第 三 个 按钮 ， 连 接 主 机 ， 如 图 4-40 Br. 
4) 选择 要 连接 的 主机 IF， 如果 之 前 没有 连接 过 ， 可 以 点 击 快 速 连接 ， 输 入 对 方 IP 地 址 
和 用 户 名 进行 连接 ， 如 图 4-41 所 示 。 
5) 输入 用 户 名 和 密码 ， 先 用 root 用 户 登 录 ， 如 图 4-42 所 示 。 
6) 三 台 主 机 登录 成 功 ， 如 图 4-43 ra, 


LL] MAPS OTL PSU WIC Marne SL ZUL S] zi WANES I AT uU mO 
(Fl migrate 2011/3/9 2:02 AREF 1,607 KB 
| msvep8O.dll 2011/3/9 2:02 应用 程序 扩展 536 KB 
| msvep90.dll 2011/3/9 2:02 应 用 程序 扩展 557 KB 
局 msver80.dll 2011/3/9 2:02 应 用 程序 扩展 612 KB 
| msver90. dll 2011/3/9 2:02 应 用 程序 扩 层 638 KB 
剧 Rlegin.dll 2011/3/9 2:02 应 用 程序 扩展 186 KB 
7" SecureCRT 2011/3/9 2:02 编译 的 HTML $F... 896 KB 
2011/3/9 2:02 应 用 程序 2,782 KB 
L| SecureCRT EULA 2011/3/9 2:02 xcti 6 KB 
L'ESLurecRT. HISTORY 2011/3/9 2:02 xxn 17 KB 
| | SecureCRT Order 2011/3/9 2:02 xd inp 5 KB 
|) SecureCRT_README 2011/3/9 2:02 aS 13 KB 
kil SeriaLall 2011/83/79 2-02 fa FES ear E 200 KB 
图 4-36 SecureCRT 图 标 
ae 7 ZEE" HL TS 


2013/3/21 11:01 x op 


图 4-37 传输 工具 


EELER Sn aay 


Filla ETP Clier 2013/3/21 11:00 WHF 
MÀ FileZilla FTP Client 


2013/3/21 10:50 350 FR RAR scit 5,159 KB 
FileZilla 3.6.0.2: win32-setup 2013/3/21 11:08 — 应 用 程序 4,593 KB 
图 4-38 FileZilla 工具 
Pees "E AU 
2013/3/21 11:00 ieee 
2011/12/19 13:31 F#2 
i 2013/3/21 11:00 Num 
2010/11/8 6:03 mor 3 KB 
2010/11/21 22:54 应 用 程序 7,443 KB 
Mem 2010/11/21 22:54 ”应 用 程序 137 KB 
at fzsftp 2010/11/21 22:54 “应 用 程序 335 KB 
eat 本 | 2010/11/21 22:54 应 用 程序 扩展 92 KB 
fzshellext 64.dll 2010/1/2 22:420 应 用 程序 扩展 96 KB 
GPL 2007/11/23 19:34 — 360 se HTML Do... 16 KB 
mingwm10.dll 2010/1/2 22:42 Are 18 KB 
[Bl NEWS 2010/11/21 21:41 kri 48 KB. 
B unind 2011/12/19 13:31 ”应 用 程序 62 KB 


图 4-39 FileZilla KIR 
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图 4-40 SecureCRT 工具 界面 


——— 


82905 }®e xga 


-— 


A 192.168.10.13 
dig) 192.168.10.14 


a) 192.168.10.17 
192. 168. 10. 19 


a In1 
um LI 
di ni) 


Beni) 


图 4-41 快速 连接 对 话 框 图 4-42 登录 对 话 框 


Pere eee Wr EEEE 


$ 192.168.0101 | 9 192.165.0.102 |* 192.168.0.103 x | 


Last login: Sun Mar 24 21:10:55 2013 
[root@localhost ~]# Bg 


图 4-43 ”登录 成 功 
7) 新 增 用 户 hadoop。 使 用 root 账户 登录 系统 ， 添 加 用 户 : useradd hadoop; 密码 修改 . 


passwd hadoop, ， 提 示 输 入 新 密码 和 重复 输入 新 密码 ， 然 后 退出 root 用 户 ， 如 图 4-44 ~ 图 4-46 
Bra. 
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* 192, 168. 0.101 x |* 192. ue a 102 | | # 182. 168. 0. 103 


图 4-44 ”新 增 用 户 hadoop 


[root&localhost ~]# passwd hadoop 
Changing password for user hadoop. 
New UNIX password: 
BAD PASSWORD: it is based on a dictionary word 
Retype new UNIX password: 
asswd: all authentication tokens updated successfully. 
Ircotelocalhost —-]* B 


图 4-45 修改 密码 


asswd: all authentication tokens up 
De hast ~]# exit 


图 4-46 退出 root 用 户 
8) 打开 会 话 选项 ， 如 图 4-47 所 示 。 


@ 1923cmaies w [Lein5icaandn2 | e 192.168.0103 


C Ctri«F4 


图 4-47 打开 会 话 选 
9) 使 用 新 建 用 户 hadoop 登录 ， 如 图 4-48 
10) 在 “用 户 名 ”里 输入 hadoop， 如 图 4-49 所 示 。 
11) 重新 连接 主机 ， 如 图 4-50 所 示 。 
12) 使 用 hadoop 用 户 登 录 三 台 主 机 ， 并 保存 密码 ， 如 图 4-51 所 示 。 
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192. 168.0.101 


图 4-48 设置 登录 用 户 


192. 168.0. 101 


Kj 4-49 ”新 建 用 户 hadoop 


xx 


P 192.1685.0.103 


| 


3 | x 


ES us 


imel tma 
eS 
| 连 摊 5FTP 标 等 页 地 
了 于 SECUTEFXO 


hadoop£192. 158.0. 101 — — 
c = 


AAU): hadoop 


SSE)... SEP): ELTELT wal 


K| 4-50 ”重新 连接 主机 图 4-51 用 hadoop 用 户 登 录 并 保存 密码 
13) 在 会 话 选项 中 更 改 外 观 ， 如 图 4-52 所 示 。 


SHBA) | 
[Monochrome — — à 5( 05 | (SRAM) [Sion 
字体 

标准 字体 Lucida Console 10pt 


SHELA: ETA 


STH: [Defe ~] 
园 使 用 Unicode HEREA D) 


光标 

光标 样式 (让 [Blok | 
LI EE TNMEM 

I EMO 


maus 
ss Mm. 
WE SBM OCONEE 


图 4-52 ”更 改 外 观 
14) 将 字符 编码 改 成 UTF-S， 如 图 4-53 所 示 。 
15) Linux 操作 系统 配置 。 用 hadoop FAP 3k: 


SU root 
新 建 /hadoop 目录 ， 如 图 4-54 tm: 
mkdir /hadoop 
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Tr & 
i 


i: 
A 


H 


£ 


LL: "EE FBR.. | 
MOO 


隐藏 关键 字 
各 ET 


HÆ |G RRO) =| HAE) 
m mimm 


图 4-53 ”更 改 字符 编码 


" 
| 
Led 
| E 
= 
L 


j 


[hadoop@ localhost /1* su root 
mL 
[root@localhost /J# 


14-54 ”新 建 /hadoop 目录 
使 用 1 /命令 查看 是 否 创 建成 功 ， 如 图 4-55 所 示 。 


和 HH 4 mkdir /hadoop 
root@localhost /IF 11 / 
irr 154 

rwxr-xr-x £ root root 4096 03-22 01:50 bin 
drwxr-xr-x 4 root root 1024 03-20 01:18 boot 
dr'wxr «xr =x root | 03-24 z dev 


drwxr-xr-x 11 root root 4096 023-22 01:50 


z lib 
drwxr-xr-x 7 root root 4096 03-22 01:50 Tib 
drwx------ 2 root root 16384 03-20 01:16 lost+found 
drwxr -xr-x 3 root root 4096 03-24 21:10 media 
drwxr-xr-x 2 root root 0 03-24 21:06 misc 
drwxr-xr-x 2? root root 4096 2010-01-27 mnt 
drwxr-xr-x 2 root root 0 03-24 21:06 net 
drwxr-xr-x 2 root root 4096 2010-01-27 opt 
dr-xr-xr-x 168 root root 0 03-24 21:05 proc 
drwxr-x--- 16 root root 4096 03-24 21:19 root 
drwxr-xr-x 2? root root 122788 03-22 01:50 sbin 
drwxr-xr-x 4 root root O 03-24 21:05 selinux 
drwxr -xr-x 2 root root 4096 2010-01-27 srv 
drwxr-xr-x 11 root root 0 03-24 21:05 sys 


drwxrwxrwt 11 root root 4096 03-24 21:10 tmp 
drwxr-xr-x 15 root root 4096 03-20 01:17 usr 
drwxr-xr-x 21 root root 4096 03-20 01:20 var 
[raot&localhost /]4 


Kj 4-55 ”使 用 1 命令 查看 是 否 创建 成 功 
16) 然后 授权 给 hadoop 用 户 ， 如 图 4-56 所 示 : 
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chown -R hadoop: hadoop /hadoop 


Pee ea he AH chown -& hadoop:hadoop /hadoop/ 
| 


& 11/ 


rootelocalhost / 


drwxr-xr-x 2 root root 
|drwxr -xr -X 4 root root 
|drwxr -xr-x 13 root root 


drwxr-xr-x 11 root root 
|drwxr-xr-x T root root 
drwx------ 2 root root 
drwxr-xr-x i root root 
drwxr -xr =x 2 root root 
'drwxr-xr-x 2 root root 
'drwxr -xr -x 2 root root 
drwxr-xr-x 2 root root 
idr-xr-xr-x 168 raat root 
drwxr-x--- 16 root root 
drwxr-xr-x 2 root root 
drwxr-xr-x 4 root root 
drwxr-xr-x 2 root root 
drwxr-xr-x 11 root root 
ldrwxrwxrwt 11 root root 
Idrwxr -Xr -X 15 root root 
Idrwxr-xr-x 21 raat root 
[root&localhost /]4 


4096 03-22 01:50 bin 
1024 03-20 01:18 boot 
j980 03-24 21:06 dev 


4096 03-22 01:50 Tib 
4096 03-22 01:50 Tibet 
16384 03-20 01:16 lost+found 
4096 03-24 21:10 media 
D 03-24 21:06 misc 
4096 2010-01-27 mnt 
0 03-24 21:06 net 
4096 2010-01-27 opt 
D 03-24 21:05 proc 
4096 03-24 21:19 root 
12288 03-22 01:50 sbin 
Q 03-24 21:05 selinux 
4096 2010-01-27 srv 
Q 03-24 21:05 sys 
4086 03-24 21:10 tmp 
4096 03-20 01:17; usr 
4096 03-20 01:20 var 


图 4-56 ”授权 给 hadoop 用 户 
17) 修改 主机 名 ， 和 暂时 性 修改 主机 名 ( 重 司 就 会 消失 ) ， 如 图 4-57 Bron : 


hostname $ name( master/slavel/slave2 ) 


备注 : 其 中 $ name 的 值 为 要 修改 的 主机 名 。 


bead ea ai: i 
root@localhost / 


18) 从 文件 中 更 改 主机 名 ， 如 图 4-58 Brzn : master 


vim /etc/sysconfig/ network 


把 文件 里 HOSTNAME 的 值 修改 为 刚才 的 $name ( mas- 


ter/slavel/slave2) ， 如 图 4-59 Ara. 


master 


[root@localhost /]4 vim /etc/sysconfig/networklg 


图 4-58 ”从 文件 中 更 改 主机 名 


| HETWORKINGsyes 


NETWORKING IPV6sno 
BosTNAME- localhost. localdomain 


[NETWORKINGeyées 
|NETwWORKING IPV6msno 


| 


|HOSTNAMEsmaster 


UP WX -XFP-X £L TUUL roo 
ees Lucr /]* hostname 
acalhost. localdomain 


auo | 


i hostname master 


& hostname 


[root&localhost /j# p 


图 4-57 ”修改 主机 名 


图 4-59 ”把 文件 里 HOSTNAME 的 值 修改 为 刚才 的 $$ name( master/slavel/slave2 ) 


19) 查看 修改 是 否 成 功 : 

hostname 

是 否 输出 为 修改 的 $name。 

20) XHK, Wl 4-60 Bron : 
/etc/init. d/iptables stop 

备注 : 关闭 当前 防火 墙 。 
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: : . ] 
/sbin/ service iptab ae [root@localhost 7] , /etc/init. d/iptables stop 
root&localhost |F S Veee iptables stop 


备注 : 关闭 防火 墙 服务 。 rootélocalhost / 
21) 验证 时 关闭 防火 墙 = 

/etc/init. d/iptables status 图 4-60 关闭 防火 墙 
验证 防火 墙 服务 是 否 停 止 ， 如 图 4-61 所 未: 

/sbin/service iptables status 


22) 退出 root 用 户 ， 如 图 4-62 所 示 。 


froot@localhost /j# /etc/init.d/iptables status 


root&localhost /]& /sbin/service iptables status {roct@localhost /]4 exit 
die pud exit 
rootélocalhost /]4 E [hadoop@localhost /]5 

图 4-61 验证 防火 墙 服 务 是 否 集 止 图 4-62 退出 root 用 户 


23) 在 部 署 前 ， 上 面 所 说 的 Windows Server 需要 简单 地 配置 一 下 ， 首 先 修 改 C: V Win- 
dows V System32 V drivers V etc V hosts 文件 ， 把 master 和 slaves 的 IP 和 主机 名 称 写 在 这 里 ， 一 
侣 一行， 示例 如下: 

192. 168. 0. 101 master 

192. 168. 0. 102slavel 

192. 168. 0. 103slave2 

这 样 确保 这 人 台 Windows Server 可 以 正确 识别 这 些 主机 名 称 ， 如 图 4-63 所 示 。 


StF FREM BE A 


Ell hosts 2013/3/19 16:37 — fHiCEH ikB 
lira | 
: (Fr) SENE) ESUO) ma) = AH 
国 protocol |/# The IP address and the host name should be separated by at least one 
E services : space, 
F Additionally, comments (such as these) may be inserted on individual 
# lines or following the machine name denoted by a '&' symbol. 
# 
# For example: 
# 
# 102.54. 94. 97 rhino. acme; com É source server 
# 38.25. 63. 10 x. acme. com # x client host 
== # localhost name resolution iz handled mithin DNS itself. 
eu # 121. 0.0. 1 localhost 
pj calhost 
132. 168. ü. 101 master 
EJ 192.168.0.102 slavel 
(G) 182.163.0.103 slave? Í 


K] 4-63 配置 Windows Server 
24) 安装 JDK( 版 本 必须 是 1.6 以 上 ) BCE Windows Server 如 图 4-64 所 示 。 
25) 连接 master( 主机 ) ， 传 输 jdk 安装 包 ， 如 图 4-65 所 示 。 


| M(H): master MAAU): hadoop FEW): eee WOP): 22 


K| 4-64 配置 Windows Server 


1 计算 服务 器 时 总 .… 
es mitime ".bash profile" 
+ 1364131137 


惠 出 目录 成 功 


2013/3/24 21.. drwor-xr-x 

33 BASH LO..  2013/3/24 21.. -rmw-r-r--  hadeop kh... 
176 BASH PR.  2013/3/24 21. -rw-r--r-- hadoap h... 
124 BASHRC..  2013/3/24 21.. -rw-r-r--  hadeop h.. 


2013/3/18 14:53; 


ue ettet pepe 2013/3/13 9:54:58 
2013/3/19 16:08... 


KI 4-65 ”传输 jdk 安装 包 
26) 为 了 方便 看 出 文件 的 权限 ， 在 会 话 选 项 中 设置 终端 为 “Linux”， 如 图 4-66 和 图 


4-67 所 示 。 


Cae J| m | 


[kd 4-66 设置 终端 


人 第 4 齐 集群 搭建 A 


图 4-67 设置 终端 为 “Linux” 
27) 外 观 中 设置 当前 颜色 方案 为 “Tradtional”， 如 图 4-68 和 图 4-69 所 示 。 


Iz aa Lucida Console 1l0pt 
Se): ETA 
[s BERI] Unicode EE ee s D) 


ONSE OG 


图 4-68 设置 当前 颜色 方案 
28) 看 一 下 是 否 复制 成 功 ，cd ~/ 先 到 根 文件 目录 下 ,1 查看 文件 ， 如 图 4-70 Bras. 
29) 进入 到 root 用 户 ，su root, 移动 文件 到 /usr/local/ 下 安装 ，mv jdk-6u30-linux-i586- 
rpm. bin /usr/local/, ， 如 图 4271 所 示 。 


WER - 192.168.0.101 = 
EB): 
| gd | BOREIA 
登陆 动作 二 二 
-1- 55H2 
| 高 级 
||| maneg j 
|| eun n i console 0o METTINN 
T ls | 1 1 = P L z Wl 
Ennes SESH): ura " 
im F) 使 用 Unicode (Eb) 
= SER "m 
| 窗口 ME eu uu 
Bex Xie | =] 
Xin 二 
kY /Zmodem ,si 
Baum 
名 (aene ee 


样式 : 6S RRR) Ui 


| NM 


图 4-69 ”设置 当前 颜色 方案 为 “Tradtional” 


[hadoop@localhost /]$ cd a 
-I lor alhoast -|$ 11 


1 ooo hadoop 806106875 03-24 21:32 jdk-6u30-linux-i586-rpm. bin 
oca ST -]$ 


K| 4-70 查看 是 否 复制 成 功 


[hadoop® ocalhost ~]$ su root 
= e z 


lrootémaster hadoopis mv jdk-6u30-linux-1586-rpm. bin |/usr/local/ 
lroot@master hadoop | 


图 4-71 进入 到 root 用 户 
30) 看 一 下 是 否 移动 成 功 ，cd /usr/local, U 查看 文件 ， 如 图 4-72 所 示 。 


图 4-72 看 一 下 是 否 移动 成 功 
31) 授权 给 这 个 文件 可 执行 权限 ，chmod +x jdk-6u30-linux-i586-rpm. bin, 1l, WHK] 4-73 
BIZ o 


32) X JDK,  ./ jdk-6u30-linux-i586-rpm. bin, KI 4-74 所 示 。 
等 待 …， 如 图 4-75 所 示 。 
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Lit T2 Ae Ea | QE PLA J LUA a 
[rootgmaster local]& chmod «x jdk-6u30-linux-1586-rpam. bin 
[roort@master localj|* [Ii 

- FOOT rO 

2 Foot 

2? root 


2010- üj- 


rst t 
hadoop hadoop 80810 
? FOOL root 
drwxr-xr-x 2 root root 
drwxr-xr-x 2 root root 
drwxr-xr-x 2 root root 
dr exP-XP-X TODE root 
drwxr-xr-x 2 root root 
[root@master local] 


Sono ee duh 
[ ca 


drwxr-xr-x 2 root root 
[root@master local|#. S dk-6u30- Tinux-1586-rpa. bin lg 


图 4-74 安装 JDK 


Unpac King. . 
checksumming. 
Extractin ig. 
unzipsFX 5. 50 of 17 February ' 2002, by info-ziP (zip-Bugsalists.wku.edu). 
inf lating: jdk=-6u 30-linux-i586 rpm i 
inflating: sun-javadb-common- 10. 5. t- -1. i386. rpm 
inflating: sun-javadb- core-10. 6- 2-1.1. 1386. rpm 
inflating: sun javadb-client-1 1, 1386. rpm 
inflat ing: Suri -3avadb-demo- 10. 6. el. 1. 1386.rpm 
inflating: sun-javadb-docs-10.6.2-1.1.1386.rpm 
inflating: sun-javadb-javadoc-10.6.2-1.1.i386.rpm 
Preparing... ii [1003] 
1 ; jak PPP Peete Pere er rer. ee rr er er er eg [1005 | 


475 等待 … 
33) KREW, Ulf 4-76 所 示 。 


For more information on what data Registration collects and 
how it 15 managed and used, see: 
http: //java. sun. com/ javase/registration/ JDKRegistrationerivacy. html 


Press Enter to continue..... 
^E[6- 


Done, 
[rooteémaster local]4 J 


图 4-76 ”安装 完成 
34) 退出 root，exit， 如 图 4-77 所 示 。 
35) 安装 成 功 后 ,设置 系 统 环 境 变 量 ， 编 辑 bash-profile 文件 ，vim ~/. bash_profile All 
图 4-78 JAN. 


[hadoop@localhost ~]$ vim —/.bash profile J 


[rootamaster local] exit 


exit 


图 4-77 退出 root 图 4-78 ”编辑 bash_profile 文件 
36) 在 文件 的 最 后 面 加 入 以 下 行 
#set Java environment 
JAVA, HOME = /usr/java/jdk1. 6. 0. 30 
PATH =$ JAVA, HOME/bin: $ PATH 
CLASSPATH = $ CLASSPATH; . : $JAVA_HOME/lib 
export JAVA. HOME CLASSPATH PATH 
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37) 最 后 ， 退 出 hadoop 用 户 ， 重 新 登录 hadoop, ， 检 验 java 是 否 安 认 成功， 如 图 4-79 所 示 : 
java-version 


TT - bash profile" 17L, 32€ 
如 果 输 出 java version" 1.6.0. 30" 等 一 系列 信息 ， 则 FR SUME 


er Y ee aan uod 
表示 安装 成 功 ， 如 图 4-80 所 示 。 li inlaw 
38) 修改 ulimit 数量 ， 进 入 root 用 户 vim /etc/securi- n —: 
Em 4-79 mU 安装 成 了 
ty/limits. conf， 如 图 4-81 Ara. aa 


图 4-80 ”安装 成 功 


图 4-81 进入 root FAP 
39) 修改 其 内 容 ， 在 文件 最 后 加 入 (数值 也 可 以 目 己 定义 ): 
* soft nofile 10240 
* hard nofile 10240 


40) vim /etc/profile， 修 改 其 内 容 ， 在 最 后 加 入 图 4-82 和 图 4-83 所 示 内 容 。 


图 4-82 修改 内 容 图 4-83 ”加 入 内 容 
41) 退出 root 用 户 ， 然 后 重新 登录 hadoop, FA ulimit-n 命令 验证 ， 如 图 4-84 所 示 。 
以 上 是 针对 集群 中 的 所 有 机 各 进行 的 配置 。 如 在 不 需要 做 时 间 同 步 服务 硕 ， 则 至 少 应 该 
保证 所 有 集群 的 时 间 相 差 无 几 。 
2. 无 密 钥 SSH 登录 
1) 首先 修改 /etc/hosts 文件 ， 所 有 的 机 句 上 都 需要 修改 。 
进入 root 用 户 ， 如 图 4-85 所 示 : 


图 4-84 FA ulimit -n 命令 验证 图 4-85 进入 root 用 户 
su root 
vim /etc/hosts 
Vs JL TEE BTA B] Ls IP 和 主机 名 称 ， 如 图 4-86 所 示 。 
osts 文件 ， 所 有 的 机 需 上 都 需要 修改 ，vim /etc/hosts( — t3 AL Arab is edF) 。 
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图 4-86 添加 集群 里 所 有 的 机 融 IP 和 主机 名 称 
2) 切换 到 master， 退 出 root HF. 
使 用 hadoop 用 户 执 行 ， 如 图 4-87 Brzn 
ssh-keygen -t dsa 
一 路 回 车 下 去 (三 人 台 机 硕 都 需要 操作 ) 。 此 时 会 在 ~/. ssh 目录 下 生成 一 对 密 钥 ， 一 个 公 
钥 id. dsa. pub, 一 个 私 钥 id_dsa， 需 要 把 公 角 复制 到 其 他 slave( 27 P 9m) EX. 


图 4-87 使 用 hadoop 用 户 执 行 
3) scp id_dsa. pub slave * : ~/. ssh/master. pub 


其 中 的 slave * 代表 的 是 每 台 slave 的 主机 名 ， 如 图 4-88 所 示 。 


加 二 
4) 然后 需要 合并 文件 ， 就 是 把 公 钥 文件 id_dsa. pub 与 和 人 到 authorized_keys 文件 里 ， 这 
样 服务 融 才 可 以 验证 密码 的 有 效 性 ， 如 图 4-89 所 示 : 
cat id_dsa. pub > > authorized, keys 


( 只 在 master 上 操作 ) o 


图 4-89 合并 文件 
5) 然后 查看 authorized. keys 文件 的 权限 ， 如 果 不 是 600， 修 改 为 600: 
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chmod 600 authorized_keys 

(Lar ie ERE). 

o 其 他 slave E: 

cd ~/. ssh 

cat master. pub > > authorized, keys 

6) 然后 查看 authorized_keys 文件 的 权限 ， 如 果 不 是 600 ， 同 样 修改 为 600， 如 图 4-90 所 
ZW 6 


Al 4-90 ”查看 authorized_keys 文件 的 权限 
7) 最 后 回 到 master 上 ， 如 图 4-91 所 示 : 
ssh slave * 


验证 是 否 不 用 输入 密码 便 可 以 登录 到 该 slave * Eo SE OAR Hae HJ AR n8 


K] 4-91 EIZ] master 
8) 把 3 个 包 ， 即 hadoop-1. 0. 1. tar, zookeeper-3. 3. 5. tar 和 hbase-0. 92. 1. tar 传 到 master 


上 的 hadoop 用 户 名 录 下 /home/hadoop/ 用 传输 工具 复制 ， 之 后 查看 是 否 复 制 成 功 ， 如 图 4-92 
和 图 4-93 所 示 。 


p hadoop 4096 03-24 22:17 
J hada Iop-1. 0.1 
0.115 


1 22:11 1 
2:31 build. xml 


l| CHANGES.TXT 
a - E JE TAL 
z hadoop hadoop 1 
op hadoop 
oop hadoop 
ny Ba = d op 
jar 


. 0. l. jar 


zh m» Eu | ii E a | 


| 287807 03-24 22:11 had loop- “0015-1. 0.1. 
hadoop hadoop 10613 03-24 22:11 hbasetest. jar 
nadoop GE 3-24 22:11 


ivy. xml 


1 
1 
L 

| 

] 
A. 
" 
L 

} 
1 


1 LICENSE. txt 


OTICE.txt 
ex 99898 | jM 22: ae j jar 
1 hadoop hadoop 13 03-24 22:11 README. txt 
2 nadap hadoop 03-24 22:11 
i hadoop | 
B hadoop hadoop 


图 4-92 传 3 个 包 
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onf i guration. xs 
p-5ire.xml 
scheduler, xml 


Les proper tas 


cy. AM 


logd j- properties 
mapred-queue-acis 
mapred-site. xm 
masters 


图 4-93 ”查看 


9) 更 改 权 限 chmod -R hadoop-1. 0. 17, cd hadoop-1.0.1/, ll, QU) 4-94 所 示 。 


-R 700 hado op-1.0O. 1 
-]$ cd hadoop-1.0.1 
adoop-1.0.11]$ 1 


Ee D 


3 D 


iG Dx. d» 


= 


e, 
te 
F. 


J PAJ RR BR Fg 


IEJ 


) hadoop 


DL» Ix D» px E 
[e 


图 4-94 更改 权限 


继续 查看 下 一 层 ，cd conf/, ll, SKI 4-95 所 示 。 


图 4-95 ”继续 碍 看 下 一 层 
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10) 压缩 hadoop 212!) slavel 和 slave2 上 ， 先 打包 tar -cvf hadoop-1. 0. 1. tar hadoop- 
1.0. 17, UK) 4-96 所 示 。 


-L .: TS ie = 
| [hadoop&master —-|$ tar -cvf hadoop-1.0.1.tar hadoop-1.0.1 


图 4-96 751] tar -evf hadoop-1. 0. 1. tar hadoop-1. 0. 1/ 
碍 看 是 否 压 脓 成 功 ， 如 图 4-97 Bron; 


[hadoc p&mas ter -]$ 11 


5 hadoop hadoop 
1 hadoop hadoop 1 


图 4-97 ”查看 是 否 压缩 成 功 
复制 给 两 个 slave，scp hadoop-1. 0. 1. tar slave * :' pwd? /， 如 图 4-98 所 示 。 


图 4-98 ”复制 给 两 个 slave 
11) 然后 在 slavel 上 操作 ,解压 cd ~ Il, tar -xvf hadoop-1. 0. 1.tar， 如 图 4-99 所 示 。 
[hadoop@slavel .ssh]$ c 


Lhadoopislavel —]5 
Er 183480 


rw-rw-r 1 hadoop hadoop 187688960 03-24 22:32 
[had oop&s lavel —-]$ tar -xwf hadoop-1. 0. l.tar 
3adoop-1. 0.1/ 


图 4-99 解压 cd ~ hae tar -xvf hadoop-1. 0. 1. tar 
12) 解压 每 个 包 ， 解 压 之 后 ， 在 每 人 台 机 大 上 编辑 ~/. bash profile 文件 ， 如 图 4-100 所 
示 ， 末 尾 添加 如 下 行 
export HADOOP HOME = /home/hadoop/hadoop-1. 0. 1 
export PATH = $ PATH; $ HADOOP_HOME/bin 
exportCLASSPATH =. : $JAVA HOME/lib: $ HADOOP_HOME/lib 
export HADOOP HOME WARN. SUPPRESS = 1 


图 4-100 在 每 台 机 器 上 编辑 ~ /. bash. profile 文件 


13) 经 过 以 上 两 个 步骤 ，Hadoop 的 安装 和 配置 已 经 安 成 了 ， 那 么 下 面 就 来 启动 Hadoop 
集群 。 在 局 动 Hadoop 之 前 ， 首 先 要 做 的 就 是 格式 化 HDFS 文件 日 录 : 

hadoop namenode -format 

成 功 情况 下 系统 输出 如 图 4-101 所 示 。 

14) 启动 Hadoop 集群 . 

start-all. sh 


系统 输出 如 图 4-102 所 示 。 
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cenLifetime=0 mi 


图 4-101 成功 情况 下 系统 输出 


nadap, 


hada 


p] $ 


Permanet 
He-ma: 
Lal: lads 
1g : gging to /home/ha 
ð ta 
0 


K] 4-102 ”启动 Hadoop 集群 系统 输出 

15) 局 动 完 成 后 ， 最 好 使 用 jps 命令 查看 Hadoop 的 进程 ， 在 master 服务 市 点 上 有 如 下 
进程 如 图 4-103 所 示 。 

NameNode 

JobTracker 

Secondary NameNode 

在 每 台 slave 上 有 如 下 的 进程 如 图 4-104 Fit: 

TaskTracker 

DataNode 


$^ 192.168.0.101 | €^ 192.16] 9.102 x | ** 192.168.0.103 


图 4-103 master 服务 节点 上 的 进行 图 4-104 每 台 slave 上 的 进程 
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如 上 所 有 进程 都 在 的 话 ， 则 表示 集群 已 经 完全 启动 。 

TE: 当 集 群 局 动 完成 后 ， 如 末 还 想 进 行 其 他 操作 ， 必 须 每 竺 防火墙 关闭 ， 查 看 防火 载 是 
BHA ATS: hadoop dfsadmin-safemode get。 当 输出 是 “OFF” 时 才 可 以 进行 操作 ， 否 则 
不 允许 操作 ， 如 图 4-105 所 示 。 


[hadoop@master logs]$ hadoop dfsadmin -safemode gei 
sate mode 15 ON 
[hadoop&master 109gs]$ hadoop dfsadmin -safemode ge 
sate mode 15 OWN 
logs]$ hadoop dfsadmin -safemode get 
ON 


[hadoop@master 1logs]$ hadoop dfsadmin -safemode 
-=| l pm - 


le 15 ON 


o05]$ hadoop dfsadmin -safemode get 


图 4-105 ”必须 是 “OFF” 
16) 停止 Hadoop 集群 . 
stop-all. sh 
3. Hadoop 核心 程序 配置 
1) 主要 修改 cd hadoop-1. 0. 4/conf/, 目录 下 的 东西 ， 如 图 4-106 所 示 。 


Last login: Sun Mar 24 74:14:33 2013 fri 
[hadoopimaster —-]$ cd hadoop-1.0.4/conft 


[2] " " » - Li = B: i 
! Hes L e LUT] |3} E| 
k 


J =J 


; hadoop 
3 hadoop 
p hadoop 223 


| Hnadgoop 


Zu ETE 


ie 


“Jj SJ] “J 


=] =] 


loop hadoop 43) 3 
op hadoop 1195 10-03 13 
hadoop 


VEN 


1 4 
1A 
1 ». 
ln 
1 s 
lh 
1 | 
1 "m 
l i s, 
1 I= 
1h 
1 t 
1 h 
1 a 
ih 
1 


Lid Lie Ed LAF AJ LEF TAJ LEF Li] be Li GAJ LAJ SB 
I E I peb IS I IE E. HA S EA S 上 


图 4-106 修改 
2) $HADOOP_HOME/conf/core-site. xml 是 Hadoop WYK Ad gr CLF, XT FFE wi core- 
default. xml 中 的 配置 项 。 一 般 在 这 个 文件 中 增加 如 下 配置 : cd hadoop-1. 0. 4/conf/, vim 


core-site. xml , 


Core-site. xml 4&5 40 F . 


1. < configuration > 

2 < property > 

3 <! -- 用 于 dfs 命令 模块 中 指定 默认 的 文件 系统 协议 -- > 
4. « name > fs. default. name < /name > 

5 < value > hdfs://master:9000 < /value > 

6 « / property > 

7 


. </configuration > 
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3) $HADOOP_HOME/conf/hdfs-site. xml 是 HDFS 的 配置 文件 ， 对 应 并 履 盖 hdfs-site. xml 
中 的 配置 项 。 一 般 在 这 个 文件 中 增加 如 下 配置 : cd hadoop-1. 0. 4/conf/, vim hdfs-site. xml, 
Hdfs-site. xml 代码 如 下 . 


4) $ HADOOP. HOME/conf/mapred-site. xml m Map/ Reduce AY ic EUER, XEWJETE ds 
mapred-default. xml 中 的 配置 项 。 我 们 一 般 在 这 个 文件 中 增加 如 下 配置 : vim mapred-site. xml, 
Mapred-site. xml 代码 如 下 : 


14. < name > mapred. local. dir < /name > 
15. < value > /hadoop/ data/ mapred. local. dir < /value > 
16. < / property > 


17. </configuration > 


主 从 配置 : 在 $ HADOOP_HOME/conf 目录 中 存在 masters 和 slaves 这 两 个 文件 ， 用 来 作 
Hadoop 的 主 从 配置 。 上 面 已 经 提 到 了 Hadoop 主要 由 NameNode/ DataNode 和 JobTracker/Task- 
Tracker 构成 ， 在 主 从 配置 里 一 般 将 NameNode 和 JobTracker 列 为 主机 ， 其 他 的 共 为 从 机 ， 于 
是 对 于 此 处 的 配置 应 该 是 : vim masters, WAI 4-107 所 示 。 

Masters {C4340 F. 


1. master 


修改 slaves 文件 : vim slaves, WHAI 4-108 所 示 。 


1 hadoop hadoop 
- € v1 


[hadoop&master conf]$ vim slaves 


图 4-107 配置 masters 图 4-108 ”修改 slaves 
Slaves 代码 如 下 . 


1. slavel 


2. slave2 


如 末 对 以 上 介绍 的 配置 项 做 了 正确 的 配置 ， 那 么 Hadoop 集群 上 只 差 启动 和 初 体 念 了 ， 当 
然 在 $ HADOOP_HOME/ conf 目录 下 还 包括 其 他 的 一 些 配 置 文件 ， 但 那些 都 不 是 必须 设置 的 ， 
如 果 有 兴趣 可 以 目 己 去 了 解 。 

值得 注意 的 是 Hadoop 集群 的 所 有 机 硕 的 配置 应 该 保持 一 致 ， 一 般 我 们 在 配置 完 master 
后 ， 使 用 sep 将 Hadoop 目录 复制 到 其 他 两 合 slave E; 

scp -r hadoop-1. 0. 1 slavel : /home/hadoop/hadoop-l. 0. 1 

scp -r hadoop-1. 0. 1 slave2: /home/hadoop/hadoop-l1. 0. 1 


4.3 获取 Hadoop 安装 包 


4.3.1 实验 目的 


1) 熟悉 Hadoop 的 相关 信息 。 
2) 学 会 如 何 获取 最 新 的 Hadoop 安装 包 。 


4.3.2 实验 设备 
便 件 . PC, 
4.3.3 实验 内 容 


1) 去 网 上 获取 Hadoop KRE, 
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2) 阅读 Hadoop 相关 文档 。 
4.3.4 实验 步骤 


了 解 和 获取 Hadoop ZZ; 
1) 搜索 Hadoop, ， 如 图 4-109 所 示 。 


Google au 


Aa 图片。 把 图 Kii — wme- 搜索 工具 


] 


Official site of the Apache project to provide an carat implementation of 
frameworks for reliable, scalable, distributed computing and data storage. 
Hadoop Releases - Hadoop Version Control System - Current - FrontPage 


Apache Hadoop - 维基 百科 ， 自 由 的 百科 全 书 

zh.wikipedia org/zh-cn/Apache Hadoop :网 页 快照 

Hadoop Apache FERES ahah ECL EE TTE NIE TRAE: A 
Googled: fog E MapReduceslGoogle RRR: BTE... 


Apache Hadoop - Wikipedia, the free encyclopedia 
en.wikipedia.org/wik/Apache Hadoop - 同 页 快照 - 翻译 此 页 


Apache Hadoop is an open-source software framework that supports data-intensme 
distributed applications, licensed under the Apache v2 licansa. It supports ... 


图 4-109 搜索 Hadoop 
2) 进入 Apache 官方 网 站 ， 如 图 4-110 所 示 。 


El hadoop - Google AE 


Releases 


Mailing Lists 


27 December, 2011: release 1.0.0 available 
March 2011 - Apache Hadoop takes top prize at Media Guardian Innovation Awards 


January 2011 - ZooKeeper Graduates 

September 2010 - Hive and Pig Graduate 

May 2010 - Avro and HBase Graduate 

July 2009 - New Hadoop Subprojects 

March 2009 - ApacheCon EU 

November 2008 - ApacheCon US 

July 2008 - Hadoop Wins Terabyte Sort Benchmark 


Documentation 
Related Projects 


LI DC oo mn oo lol a 
Li LH " =) a) =) m" il m" 


What Is Apache Hadoop? 


The Apache" Hadoop(& project develops open-source software for reliable, scalable, distributed computing 


Tha Anacha Liadnnn enfh ara lihran: ic a fromownark Haab alle far tha dietiibiibad nracoccmn nf larma data 


图 4-110 进入 Apache 官方 网 站 


图 hadcop - Google E 


E v Meme to Ande. « 


Download Hadoop 


Please head to thf releases bage to downjoad a release of Apache Hadoop. 


Who Uses Hadoop? 


A wide variety of companies and organizations use Hadoop for both research and production. Users are encouraged to add themselves to the Hadoop Pow 
page. 


News 


27 December, 2011: release 1.0.0 available 
Hadoop reaches 1.0.0! Full information about this milestone release is available at Hadoop Releases. 


March 2011 - Apache Hadoop takes top prize at Media Guardian Innovation Awards 


Described by the judging panel as a "Swiss army knife of the 21st century", Apache Hadoop picked up the innovator of Ehe year award for having the pote 
change the face of media innovations. 


See The Guardian web site 

January 2011 - ZooKeeper Graduates 

Hadoop's ZooKeeper subproject has graduated to become a top-level Apache project. 
Apache ZooKeeper can now be found at http://zookeeper.apache.org/ 


September 2010 - Hive and Pig Graduate 
Hadoop's Hive and Pig subprojects have graduated to become top-level Apache projects. 


Apache Hive can now be found at http://hive.apache.org/ 
Pig can now be found at http://pig.apache.org/ 


图 4-111 选择 稳定 版 本 下 载 


4) 进入 下 载 页 ， 如 图 4-112 所 示 。 


Fl hadoop - Google AE x | V. Hadoop Releases 


Apache > Hadoop > 


Welcome 
iuc 
Mala Hadoop Releases 
Mailing Lists 
[Issue Tracking 
Who We Are? m Dow load 


回 15 February, 2013: Release 1.1.2 available 

$ 14 February, 2013: Release 2.0.3-alpha available 
E 7 February, 2013: Release 0.23.6 available 

© 1 December, 2012: Release 1.1.1 available 

E 28 November, 2012: Release 0.23.5 available 


; Documentation Œ 15 October, 2012: Release 0.23.4 available 


KR 


™ 13 October, 2012: Release 1.1.0 available 
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图 4-112 WA FRI 
选择 下 载 一 个 AEE, ti 4-113 AIAN o 
选择 一 个 合适 的 网 址 ， 如 图 4-114 Pra. 
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Download 


+ 1.0.X% - current stable version, 1.0 release 

* 1.1.X - current beta version, 1.1 release 

+ 2.X.X - current alpha version 

+  0.23.X - simmilar to 2.X.X but missing NN HA. 
+ 0.22.X - does not include security 

+ 0.20.203.X - old legacy stable version 

+  0.20.X - old legacy version 

om Apache mirrors. 


Download a relpase now! 


Dn the miror, all recent releases are available. 


Third parties may distribute products that include Apache Hadoop and derived works, under the Api 
page. 


News 


15 February, 2013: Release 1.1.2 available 
Point release for the 1.1.X line. Bug fixes and improvements, as documented in the Hadoop 1.1.2 RE 


14 February, 2013: Release 2.0.3-alpha available 
This is the latest (alpha) version in the hadoop-2.x series. 


This release delivers significant major features and stability over previous releases in hadoop-2.x se 


* QIM for HDFS HA for NameNode 
+ Multi-resource scheduling (CPU and memory) for Y ARN 


图 4-113 ”选择 版 本 
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Home s Dyn 
Apache Downioad Mirrors 


We suggest the following mirror site for your download: 
http:lfwww.fayea.comíapache-mirror/hadoopicommoni 


Olher mirror sites are suggested celow. Please use the backup mirrors onty to download PGP and MDS signatures to verify your downigads or if 


HTTP 


httpii/www.fayea.com/apache-mirrorihadoop/common/ 
http:ífapache.etoak.com/hadocp/commorn 
httpzimárror.bjtu.edu.cniapache/hadoopícommon: 
http:/imirrors.tuna.tsinghua.edu.cn/apachei/hadoopicommoni 
http:i/mirrors.cnnic.cniapache/hadoopicommon! 


http:apache.dataguru.cnihadcopicommon! 


图 4-114 选择 网 址 
7) 选择 稳定 版 ， 如 图 4-115 所 示 。 
8) 选择 . gz 的 压缩 文件 ， 进 行 下 载 ， 如 图 4-116 Bra, 
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Apache/2.2.22 (Ubuntu) Server at mirror. dit.eduen Port 81 


fteireon bitedu.cajapacheshadoos/commonsstable 


图 4-115 
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Parent Director 


hadoop-1.0.4-1.1386.rpm 
hadoop-1.0.41-1.i13B6.rpm.asc 
hadoop-1.0.43-1.13B6.rpm.mds 
h&doop-1.0.41-1.x86 64.rpm 
hadoop-1.0.43-1.x86 64.rpm.asc 
hadoop-1.0.43-1.x86 64.rpm.mds 
hadoop-1.0.4-bin.tar.gz 
hadoop-1.0.4-bin.tar.gz.asc 


hadoop-1.0.4.tar.gz 
hadoop-1.0.4.tar.gz.asc 
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hadoop 1.0.4-1 i38B6.deb 
hadeop 1.0.4-1 i386.deb.ase 
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K| 4-116 ”选择 下 载 的 压缩 文件 


4.4 ”启动 和 关闭 Hadoop 集群 


4.4.1 实验 目的 
1) 熟悉 集群 启动 和 关闭 的 步 又 。 
2) 学 会 启动 和 关闭 集群 。 
4.4.2 实验 设备 


1) BE. 云 计算 一 体 机 、PC。 
2) 软件 SecureCRT, 


4.4.3 LWA 
使 用 SecureCRT 软件 启动 和 关闭 Hadoop 集群 。 
4.4.4 实验 步骤 


1) 首先 使 用 SecureCRT 软件 连接 到 master, QA 4-117 所 示 。 
2) 找到 master 的 IP 地 址 ， 如 图 4-118 所 示 。 

3) 双击 IP 地 址 ， 登 录 成 功 ， 如 图 4-119 所 示 。 

4) 首先 启动 Hadoop， 输 入 start -all. sh ， 如 图 4-120 ra. 图 4-117 使 用 Secure 
5) 启动 Hadoop 成 功 ,需要 等 待 几 分 钟 退 出 安全 模式 ， 可 以 使 用 。 CRT 软件 


File Edit View Options Transfer Script Tools Window Help Reese 未 注册 
wi 1 A É 2 E SA p E Ix dd 


Lr [^6 Go ER c 


lig Conne: 
HH wd aA EFA |M e 


dee 


jel) 182.158.0.151 


idi] 132,158.10, 34 
i 132. 158.10. 17 


图 4-118 ”找到 master 的 IP 地 址 


A 第 2 篇 基础 实践 部 分 A 


图 192:168.0.101 - SecureCRT = | 
File Edit Wiew Options Transfer Script Tool Window Help RESB-x 未 注册 
全 下 TREE EL nh aus xf 9 : 


4# 192.168.0.101 x d b 


Ready ssh: SES-255-CTR i, 20 39 Rows, 168 Cols Linux CAP NUM 


图 4-119 登录 成 功 


| from 192.168. 0. 3 


ume, hadoon rna 
ng to /home 


doop 1.0.1 e 
hadoop,/hadoop-1 


K] 4-120 局 动 Hadoop 
hadoop dfsadmin -safemode get， 命 令 查看 时 候 关 闭 安全 模式 ， 如 果 是 ON， 代 表 没 有 关闭 ， 如 
K] 4-121 所 示 。 
[ha doopimas ter a] $4 hadoop dfsadmin -safemode get 


Sate mode is ON 


[hadoopgmaster 一 |] 中 hadoop dfsadm@h -safemode getg 


图 4-121 退出 安全 模式 


6) 当 出 现 OFF 时 ， 代 表 已 经 退出 安全 模式 ， 如 图 4-122 所 示 。 

7) 这 个 时 候 局 动 要 启动 web 容 般 ， 首 先进 入 apache-tomcat-6. 0. 36 这 个 目录 下 : ed a- 
pache-tomcat-6. 0. 36/ 。 

8) 然后 启动 web 44s: bin/startup. sn， 如 图 4-123 Ara. 
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[hadoop&master -]$ hadoop dfsadmin -safemode get 
cate mode is ON 
[hadoopamast ei 1§ hadoop dfsadmir sal emode get 


nate mode is ON 


[hadoopemasrer —-[3 Madoop dfsadmin -safemode get 
sate mode 15 OFF 


fap I. BEN 


K| 4-122 退出 成 功 


图 4-123 ”启动 web Zia 
9) 使 用 jps 命令 查看 一 下 是 否 局 动 成 功 ， 如 图 4-124 所 示 。 


图 4-124 使 用 jps 命令 查看 一 下 是 否 局 动 成 功 


10) 其 中 Bootstarap FEAR FEAR AS B FE BM, 剩 下 三 个 是 Hadoop 集群 ， 有 这 儿 个 进程 代 
表 启 动 成 功 ， 可 以 通过 页 面 进行 访问 . 
master. 8080/education/ 


输入 网 址 ， 可 以 登录 到 云 平台 ， 如 图 4-125 所 示 。 


G 云 计算 实 训 项 目 


用 户 名 : 


E m 
LELI] 


类 Al: mmn ~ 


没有 账号 ? 请 注册 


admin 


re 
HD 


版 权 所 有 @ 2013 JrgBEE SEES R FRAN 


图 4-125 ”登录 云 平台 
11) 用 户 名 和 密码 进入 ， 如 图 4-126 所 示 。 
12) 然后 是 关机 ， 首 先是 关闭 web Zf38: bin/shutdown. sh， 如 图 4-127 所 示 。 


seao 云 计算 实 训 项 目 


智能 EMS 速 递 云 微 信 关系 分 析 


图 4-126 进入 项 目 选 择 界面 


agg JE; apache 
jok1. 6.1 
hadoop, apache 


Al 4-127 关闭 web ài 
13) 然后 是 停止 Hadoop 集群 . stop-all. sh, 如 图 4-128 所 示 。 


6]9 stop-all.sh 


图 4-128 ”停止 Hadoop 集群 
14) 最 后 通过 jsp 命令 看 一 下 是 否 关闭 成 功 ， 如 图 4-129 所 示 。 


图 4-129 ”查看 是 否 关 闭 成 功 


15) 可 以 看 到 进程 已 经 都 没有 了 ， 表 示 关 财 成 功 。 这 个 时 候 就 可 以 天 闭 连接 工具 ， 然 
Jc 28 a FE DT FL 
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$5 i 熟悉 Hadoop 本 地 集群 


5.1 2428 Hadoop 的 一 些 常用 命令 


5.1.1 实验 目的 


1) TS Hadoop ^it MHMS Mud 
2) 学 会 在 操作 中 使 用 这 些 命令 。 


5.1.2 实验 设备 


1) 硬件 : 云 计 算 一 体 机 、PC。 
2) 软件 : SecureCRT, 


5.1.3 实验 内 容 
使 用 SecureCRT 工具 在 集群 上 操作 一 些 第 用 命 人 < 


~ 


5.1.4 实验 步骤 


[hadoop@master —]$ hadoop dfs -ls / 
Found 1 items 
drwxr-xr-x hadoop supergroup 2013-03-24 22:45 /hadoop 


[hadoop&mas ter -]5 | 


[hadoop&master —-]$ hadoop dfs -ls / 
Found 1 items 
drwxr-xr-x - hadoop supergroup O 2013-03-24 22:45 /hadoop 
[hadoop&mas iter —]$ hadoop dfs -ls /hadoop 
Found 1 items 
drwxr-xr-x - hadoop supergrou 0 23:29 /hadoop/mapred 
[hadoopamaster —]$ hadoop dfs ej 
Found 1 items 
drwx------ - hadoop supergroup 0 2013-03-24 23:29 /hadoop/mapred/sysrtem 
[hadoop&master —]$ hadoop dfs -ls /hadoop/mapred/system 
Found 1 items 
rw - 2 hadoop supergroup 4 2013-03-24 23:29 /hadoop/mapred/system/jobtracker. info 
[hadoopümas ter -]$ 


图 5-2 ”预览 命令 (二 ) 
2) 传输 命令 put, hadoop dfs -put， 如 图 
5-3 BAN o [hadoop&master ~]$ hadoo op df: s -put 
先 放 一 个 文件 到 集群 上 ， 如 图 5-4 所 示 。 
3) fU ESSET, WA 5-5 Bron. 图 5-3 ”传输 命令 


sage: ja a Fsshell [-put «localsrc: 
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Iri sttp://hadoop@ master - Filezilla elo hm 


StF) SE) SBM) iT) BSS) 书签 (8B) RHH) 
"ESI BS Us ee EE SS" 


屏幕 录像 专家 -未 注册 


主机 (H): sftp://sevel 用 户 各 (U): hadoop FBW: ssessssss dEDEQD ceog 
JR: 谋取 目录 列表 

ay: b 

lm: Listing directory /hame/hadoop 


状态 : 到 出 目录 成 功 
Toss: 已 从 服务 器 断 开 


sftp;/hadoopümaster x| sftp;/hadoopigslavel x 
Asa: | C:\Users\hadoop\Desktop\ = | 运程 站 点 : | /home/hadoop 
| Searches a È’ 
SendTo 2 home 
Templates * hadoop 
Bi Videos 
workspace 


fan) wid 


se 文件 大 小 IMBRE HBT ‘UR 所 有 者 /组 

; MDEE: 913, tis. E mozilla xH 2013/3/24 21.. drwxr-xr-x — hadoop hu 

C misina. 2021 WEDA 2013/3/19 11:30;.. - ssh MA 2013/3/24 21.. drnwx------ hadoop h... 

Bokn Ink 2119 eas 2013/3/24 13:12... hadoop.. UE 2013/3/24 22.. drwx---- hadoop h.. 

3 | desktop.ini 82 ERLE 2013/1/15 14:47... bash hi... 993 BASH HIS.. 2013/3/24 22.. -rw------- hadoop h.. 

Ü Foxmailnk 532 HEDA 2013/1/16 11:47... |. bash lo... 33 BASH IO.  2013/3/2421.. -rw-r--r- “Tt hadoop hu. 

[a] keygen . te... 835 tI 2013/1/21 10:52... = -bash_p... 493 BASH PR.  2013/3/24 22.. -rw-r--r-- hadoap h.. 
esT lE, FNS: 17254 zT 6PM $0 3 TER. Xo] SE: 6279895137 


Essen 方向 mme ch ESE RE 


图 5-4 传输 文件 到 集群 
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i i 
ak Taasis 
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hadoop 


图 5-5 复制 到 机 各 上 
4) 复制 这 个 文件 到 根 目 录 test 目录 下 ，hadoop dfs-put *. */tes/ *. * ， 如 图 5-6 所 示 。 


hadoop 6279305 


a ai oop dfs -put 


图 5-6 复制 到 根 目 录 
5) 查看 hadoop dfs-ls /test， 如 图 5-7 Prax. 


h a d a E. p df 5 


hadoop supergroup 


图 5-7 查看 


6) 页 面 浏 览 http: //master; 50070， 如 图 5-8 所 示 。 后 台 查 看 复制 的 文件 如 图 5-9 所 示 。 


NameNode ° master:9100’ 


Started: Sun Mar 24 23:29:19 CST 2013 


Version: 1.0.1, r1243785 
Compiled: Tue Feb 14 08:15:38 UTC 2012 by hortonfo 
Upgrades: There are no upgrades in progress. 


Cluster Summary 


图 5-8 浏览 后 台 文 件 页 
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E] hadoop - Google 2E x | [i HDFS:/ x | [882207 GB DFS Remaining... x 


Contents of directory / 


Goto : if [o | 


m 中 2013-03-24 22:45 aes 
| | | [2013- -05-24 23:52 |rwxr-xr-x |hadoop |supergroup| 


| [Type Size d [Block Size Modification Time Permission |Permission|Own Owner Group | 
i Ve tH E 用 s [file |1 168.5 EB 2 ë É 64 NB 2013-03-24 23:52 |re-r--r-- |hadoop [supergroup| 


图 5-9 后 台 查 看 复制 的 文件 
7) 删除 文件 命令 rm, hadoop dfs-rm /test/ *. * ， 如 图 5-10 所 示 


-Fm "res 
10, ‘Test, cul ss 
xp dfs -1s 


图 5-10 删除 文件 命令 
8) 删除 文件 夹 命 令 rmr, hadoop dfs-rmr / 
test, QU) 5-11 Pra. 
页 面 查 看 删除 文件 如 图 5-12 所 示 。 
9) 上 传 文件 ，put 命令 ，hadoop dfs-put 图 5-11 ”删除 文件 夹 命令 
Text. txt /embest/textl. txt， 如 图 5-13 所 示 。 


[Name | Type [Si ze [Rep lication|B Block Size|M Hodification Modification Time|P ermission|Dwner | er |Group | 
lhadoop|air | | | [2013-03-24 22:45 |rwxr-xr-x | a ea 


Go back to DFS home 


图 5$-12 页面 查看 删除 文件 


i adoopé edla ecm te am 
T 75 = m 服务 器 [S) ”书签 (8) “帮助 (H) R FE m = mr 未 注册 
[a (GEA t+ Pe gine ta 
主机 (H):  sftp://slvet 用 户 名 (U): hadoop BW): een SIX CP): Hiit) 日 
AE: 语 取 目录 列表 …. 
ee: b 
JAE: Listing directory /home/hadoop 


HARD 到 出 目录 成功 
ts: 已 从 服务 器 新 开 


| sftp://hadoop@master x | sitp://hadoop@siavel > | 


x 
C:\Users\hadoop\Desktop\ ~ | 运程 站 点 : | /home/hadoop 7 
| JE Searches "la zi 
js SendTo S-A home 
I Templates [3 四 -和 hadoop 
B Videos 
fy workspace 
i ti we 
Rez AEAN MHE DERN EET XU FEED RR 权限 所 有 看 /组 
à | desktop.ini 282 配置 设置 2013/1/15 14:47... i - 
G Foxmaillnk 532 EAS 2013/1/16 11:47... js mozilla xx 2013/3/24 21.. drwxr-xr-x — hadoop h... 
keygen DE. 835 ESS 2013/1/21 10:52... [8 EI NX 2013/3/24 21. drwx----- =  hadooph.. 
fe i p ERs TAES EIS E hadoop... xix 2013/3/24 22.. drwx------ hadoop h... 
2013/3/24 15:17:... hp eee 2012/10/3 13.. drwx----. — hadoop h... 
ware- Vivin OS FIT m Tx 306: © | bash_hinn 2114 BASH HIS. 2013/3/24 23.  -rnw------- hadoop hm 
F) - SadRunner.d... 162 Microsoft Off... 2013/3/13 15:11... - | LJ) basho.. 32 BASH LO.. 2013/3/24 21. =rwer--r== hadoop h... 
RT 112 NSH: OST 了 个 交 件 和 4 TBR. AOR: 62,973,954 Sb 


ESETE 方向 BEms ee Xu GE RE 


KI 5-313 上传 测试 文件 到 集群 


人 第 2 篇 基础 实践 部 分 A 
10) 看 一 看 是 否 传 输 完 成 1， 如 图 5-14 所 示 。 


[hadoop&masrer ~]$ 11 


1 hadoop hadoop 

5 hadoop h vad hop 

hadoop 

1 hadoop 

L hadoon | adoop 
` ~] i jadoo p dfs 


i 
$ 国 


图 5-14 看 一 看 是 否 传输 完成 
11) 打开 命令 cat, hadoop dfs-cat /embest/text1. txt, 如 图 5-15 所 示 。 


[ha adoi PhBima5 ter ~]$ hadoop dfs -cat embest /texril.t3 


图 $-15 ”打开 命令 
命令 行 浏 览 被 打开 的 文件 如 图 5-16 所 示 ， 页 面 浏览 被 打开 的 文件 如 图 5-17 所 示 。 


图 5-16 命令 行 浏览 被 打开 的 文件 


‘ese 
saa Henigo ce "9$ 
rare. ""9"**3 Ee eter" ?*":4"""** 


""ut* Bee "2202. so ep seer 2202221 — vr ^ dni 逢 二 和 *"U*"*«4 549 
LR) "".-"»*w Z2 1. 


EE seer op 88686 848) BT ie LI 
"*""" neoaea 

AE #@eerGe @4350°t ree oe" £826 eer ee O° ee #678 eetse Se S88 

mo "nop eo "t 

ALLT. D ETE I SE 

" Hn B" *VThi*"aevt"at gy" vs9$9:^ TETIT D 
"9 


EE 


图 5-17 页面 浏 览 被 打开 的 文件 
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12) 从 男 一 台 机 人 右上 下 载 get 命令 , hadoop dfs-get /embest/text2. txt ~ /mytxt. txt, Il, 如 
图 5-18 所 示 。 


2 DataNode 

[hadoop@slavel ~]$ hadoop dfs -get /embest/text2.txt —/mytxt.txt 
[hadoop@slavel —]$ 11 

Bu 28 


= 15 hadoop hadoop 4096 03-24 22 Fa 
14 hadoop hadoop 4096 03-24 23:2 
l'W-Pw 1 hadoop hadoop 4439 03-25 00:03 mytxt.txt 
[hadeopes Tav rel ~]$ c 


图 5-18 get 命令 


13) 创建 文件 夹 mkdir, hadoop dfs-mkdir /books, hadoop dfs-ls/, 40 5-19 所 示 。 


[hadoop&master =]$ hadoop dfs -mkdir /books 
[hadoop&master ~]$ hadoop dfs -ls / 
Found 3 items 
reiecit gs - hadoop supergroup 0 2013-03-25 00:10 /books 
- hadoop supergroup 0 2013-03-25 00:08 /embest 
hadoop supergroup 0 2013-03-24 22:45 /hadoop 
MS E cunt ag ier 


ac ? a E 
a- 


图 $-19 ”创建 文件 夹 
14) 看 文件 夹 有 多 大 空间 dus MS, hadoop dfs-dus/embest, 如 图 5-20 所 示 。 


[hadoop amas TE er ~]$ hado op dfs -dus /embest 
hdf's : / master :9100/embest 876 


[hadoopamasre er ~)§ Bg 


图 5-20 dus 命令 
5.2 使 用 distcp 进行 并 行 复制 


前 面 的 HFDS 访问 模型 都 集中 于 单线 程 的 访问 。 例 如 通过 指定 文件 通 配 ， 可 以 对 一 部 分 
文件 进行 处 理 ， 但 是 为 了 高 效 ， 对 这 些 文件 的 并 行 处 理 需 要 新 写 一 个 程序 。Hadoop 有 一 个 
叫 distcp (分 布 式 复制 ) 的 有 用 程序 ， 能 从 Hadoop 的 文件 系统 并 行 复制 大 量 数据 。 

Distcp 一 般 用 于 在 两 个 HDFS 集群 中 传输 数据 。 如 采集 群 在 Hadoop 的 同一 版 本 上 运行 ， 
就 适合 使 用 hdfs 方案 . hadoop distcp hdfs: //namenodel/foo hdfs: //namenode2. bar, 

这 将 从 第 一 个 集群 中 复制 /foo 目录 (和 它 的 内 容 ) 到 第 二 个 集群 中 的 /bar 目录 下 ， 所 以 
第 二 个 集群 会 有 /bar/foo 目录 结构 。 如 果 /bar 不 存在 ， 则 新 建 一 个 。 我 们 可 以 指定 多 个 源 路 
径 ， 并 且 所 有 的 都 会 被 复制 到 目标 路 径 。 源 路 径 必 须 是 绝对 路 径 。 

默认 情况 下 ，distcp 会 跳 过 目标 路 径 已 经 有 的 文件 ,但 可 以 通过 提供 的 -overwrite 选项 进 

新。 也 可 以 用 -update 选项 来 选择 只 更 新 那些 修改 过 的 文件 。 

注意 : 使 用 -overwrite ptr 中 任意 一 个 (或 两 个 ) ETD 源 路 径 和 目标 路 径 的 含 
义 。 这 可 以 用 一 inq o WAR CAE Te Bl PIT PENER Pj/foo 下 的 一 个 文 
件 ， 就 能 通过 运行 对 第 第 二 个 集群 的 改变 进 进行 同步 : hadoop M update hdfs: //namenodel/ 
foo hdfs. //namenode2/ bar/foo , 

目标 路 径 需要 末尾 这 个 额外 的 子 目录 /foo， 因 为 源 目录 下 的 内 容 已 被 复制 到 目标 目录 下 
(WRAZ rsync ,可 以 想象 -overwrite 或 -update 项 对 源 路 径 而 言 , 如 同 添加 一 个 隐 含 的 料 杠 ) 。 
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如 末 对 distep 操作 不 是 很 确定 ， 最 好 先 对 一 个 小 的 测试 目录 树 进 行 答 试 。 

有 很 多 选项 可 以 控制 分 布 式 复制 行为 ， 包 括 预 和 留 文件 属性 ， 忽 略 故障 和 限制 复制 的 文件 
或 总 数据 点 的 数量 。 运 行 时 不 刺 任 何 选项 ， 可 以 看 到 使 用 说 明 。 

Distep 是 作为 一 个 MapReduce 作业 执行 的 ， 复 制 工作 由 集群 中 并 行 运行 的 map 来 完成 。 
这 里 并 没有 reducer。 每 个 文件 都 由 一 个 单一 的 map 进行 复制 ， 并 且 distep 通过 将 文件 分 成 
大 致 相等 的 文件 来 给 每 个 map 数量 大 致 相同 的 数据 。 

map 的 数量 是 这 样 确定 的 ， 通 过 让 每 一 个 map 复制 数量 合理 的 数据 以 最 小 化 任务 建立 
所 涉及 的 开销 是 一 个 很 好 的 想法 ， 所 以 每 个 map 的 副本 最 少 为 236MB (除非 输入 的 总 大 小 较 
少 ,否则 一 个 map 就 足以 操控 全 局 ) 。 例 如 ，1GB 的 文件 会 被 分 成 4 个 map 任务 。 如 果 数 据 
很 大 ， 为 限制 市 宽 和 集群 的 使 用 而 限制 映射 的 数量 惑 会 变 得 很 有 必要 。map 默认 的 最 大 数量 
是 每 个 集群 节点 (tasktracker) 有 20 个 。 例 如， 复制 1000GB 的 文件 到 一 个 100 个 节点 的 集 
群 ， 会 分 配 2000 个 map( 每 个 节点 20 个 map), ， 所 以 平均 每 个 会 复制 S12MB。 通 过 对 distep 
指定 -=m 参数 ， 会 减少 映射 的 分 配 数量 。 例 如 ，- mm 1000 会 分 配 1000 个 map, 平均 每 个 复 
制 1CB。 

如 采 想 在 两 个 运行 着 不 同 版 本 HDFS 的 集群 上 利用 distep, EH hds 协议 会 失败 ， 因 为 
RPC 系统 是 不 兼容 的 。 想 要 弥补 这 种 情况 ， 可 以 使 用 基于 HTTP 的 HFTP 文件 系统 从 源 中 进 
行 读 取 。 这 个 作业 必须 运行 在 目标 集群 上 ， 使 得 HDFS RPC 版 本 是 兼容 的 。 使 用 HFTP 重复 
前 面 的 例子 . hadoop distcp hftp: //namenodel: 50070/foo hfds : //namenode2/bar , 

注意 ， 需 要 在 URI 源 中 指定 名 称 节 点 的 Web 端口 。 这 是 由 dfs. http. address 的 属性 决定 
HJ, SUAE 50070, 


5.3 Web 浏览 Hadoop 储 群 


5.3.1 实验 目的 


1) 熟练 掌握 页 面 方式 浏览 Hadoop 集群 。 
2) 学 会 查看 集群 中 的 各 个 文件 。 


5.3.2 实验 设备 

硬件， 云 计算 一 体 机 、PC。 
5.3.3 实验 内 容 

使 用 浏览 器 访问 Hadoop 集群 。 


5.3.4 实验 步骤 


1) 输入 网 址 http: //master; 50070 ， 能 看 到 摘要 ， 页 面 访问 后 台 文 件 界 面 ， 如 图 5-21 
所 示 。 

2) MapReduce ja S md http: //master: 50030, 也 可 以 看 到 摘要 ， 页 面 访问 后 人 台 任 务 
界面 ， 如 图 5-22 所 示 。 


A $5 RA Hadoop 本 地 集群 A 


| [5 Hadoop NameNode mast... x [CREE 
NameNode 'master:9100' 


Started: Sun Mar 24 23:29:19 CST 2013 

Version: 1.0.1, 1243785 

Compiled: Tue Feb 14 08:15:38 UTC 2012 by hortonfo 
Upgrades: There are no upgrades im progress. 


Browse the filesystem 
Namenode Logs 


;luster Summary 


5 files and directories, 2 blocks = 7 total. Heap Size is 57.25 NB / 888.94 NB (65) 


Configured Capacity : 284. 13 GB 
DFS Used ; 168 RB 
Non DFS Used : 22. 07 GB 
DFS Remaining : 262. 66 GB 
DFS Used’ : oO 8 
DFS Remainings : 92.25 3 
Live Hodes : 2 
Dead Nodes ü 
Decommissioning Nodes : 0 
Number of Under-Replicated Blacks ü 


图 5-21 页 面 访 问 后 台 文 件 界 面 


Quick Links 


master Hadoop Map/Reduce Administration 


State: RUNNING 

Started: Sun Mar 24 23:29:23 CST 2013 

Version: 1.0.1, r1243T85 

Compiled: Tue Feb 14 08:15:38 UTC 2012 by hortonfo 
Identifier: 201303242323 


luster Summary (Heap Size is ERBEN sss. 94 MB) 
Running Occupied | Occupied | Reserved | Reserved Reduce J : 
Hap eee wee Hades Nap eduee Hap Kamas i st ral five o Medis: Mute d em 
Tasks Tasks Slots Slots Slots Slots ap ¥ Capacity 


a ll: | 2o jj a 


Scheduling Information 


Queue Name [State | scheduling Information 
T a 


Filter (Jobid, Priority, User, Name) | 
Example: 'user:smith 3200" will filter by 'smith' only in the user field and "3200" in all fields 


ere @ @ dq dioe | 


图 $-22 页面 访问 后 台 任 务 界面 
5.4 使 用 Hadoop 命令 归档 文件 


1. Hadoop 归档 文件 

每 个 文件 以 块 方式 存储 ， 块 的 元 数据 存储 在 名 称 广 点 的 内 存 里 ， 此 时 存储 一 些小 的 文 
fF, HDFS 会 比较 低 效 。 因 此 ， 大 量 的 小 文件 会 耗 尽 名 称 市 点 的 大 部 分 内 存 (注意 , 相 较 于 和 存 
储 文 件 原始 内 容 所 需要 的 磁盘 空间 ,小 文件 所 需要 的 空间 不 会 更 多 。 例 如 ,一 个 1MB 的 文件 
以 大 小 为 128MB 的 块 存储 ,使 用 的 是 1MB 的 磁盘 空间 ,而 不 是 128MB)。 

Hadoop Archives 或 HAR 文件 ， 是 一 个 更 高 效 地 将 文件 放 入 HDFS 块 中 的 文件 存档 设备 ， 
在 减少 名 称 市 点 内 存 使 用 的 同时 ,仍然 允许 对 文件 进行 透明 地 访问 。 具 体 说 来 ，Hadoop Ar- 
chives 可 以 被 用 作 MapReduce 的 输入 。 

2. 使 用 Hadoop Archives 
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Hadoop Archives 通过 使 用 archive 工具 根据 一 个 文件 集合 创建 而 来 。 这 些 工具 运行 一 个 
MapReduce 作业 来 并 行 处 理 输 入 文件 ， 因 此 我 们 需要 一 个 MapReduce 集群 去 运行 使 用 它 。 
HDFS 中 有 一 些 我 们 希望 归档 的 文件 . hadoop fs-lsr/my/files, BH 

%  hadoop fs -lsr /my/files 


-TW-T--T-- ] tom supergroup 1 2009-04-09 19:13 
/my/files/a 

drwxr-xr-x -tom supergroup 0 2009-04-09 19:13 

/ my/ files/ dir 

-rW-r--r-- ] tom supergroup ] 2009-04-09 19:13 
/ my/files/dir/b 


现在 我 们 可 以 运行 archive 1&5 . hadoop archive-archiveName files. har /my/files /my。 

第 一 个 选项 是 归档 文件 名 称 ， 这 里 是 file. har, HAR 文件 总 是 有 一 个 . har 扩展 名 , Me 
必需 的 ， 具体 理由 将 在 后 面 描 述 。 接 下 来 把 文件 放 入 归档 文件 。 这 里 只 归档 一 个 源 树 ， 即 
HDFS F/my/files 中 的 文件 ， 但 事实 上 ， 该 工具 接受 多 个 源 树 。 最 后 一 个 参数 是 HAR 文件 
的 输出 目录 。 下 面 看 看 这 个 归档 文件 是 怎么 创建 的 : hadoop fs-ls /my， 即 

% hadoop fs -ls /my 

Found 2 items 

Hadoop fs-ls /my/files. har, BP 

drwxr-xr-x -tom supergroup 0 2009-04-09 19:13 /my/files 

drwxr-xr-x -tom supergroup 0 2009-04-09 19:13 

/my/ files. har 

% hadoop fs -ls /my/files. har 


Found 3 items 


-TW-T--T-- 10 tom supergroup 165 2009-04-09 19:13 
/my/files. har/_ index 

-TW-T--T-- 10 tom supergroup 23 2009-04-09 19:13 
/my/files. har/_ masterindex 

-TW-T--T-- ] tom supergroup 2 2009-04-09 19:13 


/my/ files. har/part-0 

这 个 目录 列表 展示 了 一 个 HAR 文件 的 组 成 部 分 :两 个 索引 文件 和 部 分 文件 的 集合 (本 
例 中 只 有 一 个 ) 。 这 些 部 分 文件 包括 已 经 链接 在 一 起 的 大 量 原始 文件 的 内 容 ， 并 且 索 引 使 我 
们 可 以 查找 那些 包含 归档 文件 的 部 分 文件 ， 包 括 它 的 起 始点 和 长 度 。 但 所 有 这 些 细 市 对 于 使 
用 har URI 方案 与 HAR 文件 交互 的 应 用 都 是 隐藏 的 ，HAR 文件 系统 是 建立 在 基础 文件 系统 
上 的 (本 例 中 是 HDFS ) 。 以 下 命令 以 递归 方式 列 出 了 归档 文件 中 的 文件 : hadoop fs-lsr 
har; ///my/files. har, BẸ 

% hadoop fs -lsr har: ///my/files. har 


drw-r--r-- -tom supergroup 0 2009-04-09 19:13 
/my/ files. har/ my 
drw-r--r-- -tom supergroup 0 2009-04-09 19:13 
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/my/ files. har/my/files 


rw-r--r-- 10 tom supergroup ] 2009-04-09 19:13 

/my/ files. har/my/files/a 

drw-r--r-- - tom supergroup 0 2009-04-09 19:13 

/my/ files. har/my/files/ dir 

-TW-T--T-- 10 tom supergroup 1 2009-04-09 19:13 


/my/ files. har/my/files/dir/b 

WMR HAR 文件 所 在 的 文件 系统 是 默认 的 文件 系统 ， 这 就 非常 耳 观 多 懂 。 但 如 采 想 使 用 
在 其 他 文件 系统 中 的 HAR 文件 ， 束 需要 使 用 一 个 不 同 于 正常 情况 的 URI 路 径 格式 。 以 下 两 
个 指令 作用 相同 ， 例 如 : 

% hadoop fs-lsr har: ///my/files. har/my/files/dir 

% hadoop fs-Isr har: //hdfs-localhost; 8020/my/files. har/my/files/dir 

注意 第 二 个 格式 ， 仍 以 har 方案 表示 一 个 HAR 文件 系统 ， 但 是 是 由 hdfs 指定 基础 的 文 
件 系统 方案 ， 后面 加 上 一 个 横 枉 和 HDFS host( localhost) 和 端口 (8020) 4. MES. -H AH AF 
4 HAR 文件 必须 要 有 . har 扩展 名 了 。 通 过 查看 权限 和 路 径 及 . har 扩展 名 的 组 成 HAR 文件 
系统 将 har URI 转换 成 为 一 个 基础 文件 系统 的 URI。 在 本 例 中 是 hdfs. /localhost: 8020/user/ 
tom/files. har。 路 径 的 剩余 部 分 是 文件 在 归档 文件 中 的 路 径 : /user/tom/files/ dir, 

要 想 删除 一 个 HAR 文件 ， 需 要 使 用 删除 的 递归 格式 ， 因 为 对 于 基础 文件 系统 来 说 ， 
HAR 文件 是 一 个 目录 . hadoop fs-rmr /my/files. har。 

3. AE 

对 于 HAR 文件 ， 还 需要 了 解 它 的 一 些 不 足 。 创 建 一 个 归档 文件 会 创建 原始 文件 的 一 个 副 
本 ， 因 此 需要 与 要 归档 (尽管 创建 了 归档 文件 后 可 以 删除 原始 文件 ) 的 文件 同样 大 小 的 磁盘 空 
间 。 虽 然 归 档 的 文件 能 被 压缩 (HAR 文件 在 这 方面 像 tar 文件 ) ， 但 是 目前 还 不 文 持 档案 压缩 。 

一 旦 创建 ，archives 便 不 可 改变 。 要 增加 或 移 除 文件 必须 新 创建 归档 文件 。 事 实 上 ， 这 
对 那些 写 后 便 不 能 改 的 文件 来 说 不 是 问题 ， 因 为 它们 可 以 定期 成 批 归 档 ， 比 如 每 日 或 每 周 。 
如 前 所 述 ，HAR 文件 可 以 用 作 MapReduce 的 输入 。 然 而 ， 没 有 归档 InputFormat 可 以 打包 多 
个 文件 到 一 个 单一 的 MapReduce， 所 以 即使 在 HAR 文件 中 处 理 许多 小 文件 ， 也 仍然 低 效 。 
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6.1 系统 检查 和 报告 


Hadoop 提供 的 文件 系统 检查 工具 叫做 fek。 如 参数 为 文件 路 径 时 ， 它 会 递归 地 检查 该 
路 径 下 所 有 文件 的 健康 状态 。 如 果 参 数 为 /， 它 就 会 检查 整个 文件 系统 。 图 6-1 所 示 为 一 个 
输出 的 示例 . bin/hadoop fsck ~。 


[hadoop@master —]$ hadoop fsck / E 
FSCK started by hadoop from /192.168.0.101 for path / at Mon Jun 10 13:04:46 CST 20 
13 


/hadoop/ Lm 'mapr ed/ staging/ ree EF staging/job 201303250301 0006/job.jar under re 
plicatec « 272923803 64277. 1065. Target Replicas is 10 but found 2 regii ca(s) 


/hadoop/tmp/ mapred/ staging/ dona: staging/job 201303250301 0013/job. jar under re 
plicated blk_70567965166352616 127. Target Replicas is 10 but found 2 ic ca(s) 


Total size: 421654591 B 

Total dirs: 114 

Total files: Fé 

Total blocks ( validated): 170 (avg. MK size 2480321 B) 
Minimally repli cated blocks: 170 (100. 36 

Over -repli cated bloc ks: 0 (0 

Under -replicated blocks 

Mis-replicated blocks: 

Default replication factor: 2 

Average block replication: . 9764706 

Corrupt blocks: 0 

Missing replica 16 (4.7619047 %) 

Number of data- nodes 2 

Number of racks 1 

FSCK ended at Mon Jun 10 13:04:46 CST 2013 in 57 milliseconds 


The filesystem under path '/' is HEALTHY 
[hadoop&master ~]$ 


图 6-1 一 个 输出 的 示例 

大 多 数 信息 是 不 言 而 喻 的 。 默 认 情 况 下 ，fsck 会 忽略 正在 被 客户 端 写 人 而 打开 的 文件 。 
如 果 想 看 到 这 些 文件 的 列表 ， 可 以 在 fsck 中 使 用 -openforwrite 参数 。 

在 fsck 检查 文件 系统 时 ， a 的 文件 就 会 打印 出 一 个 圆 点 (未 在 前 述 的 输出 
中 显示 ) 。 遇 到 不 健康 的 文件 时 ， 它 会 打出 相应 信息 ， 包 括 过 度 复制 的 块 、 复 制 不 足 的 块 、 未 
复制 的 块 、 ee AA 因为 HDFS 是 目 我 修复 的 ， 所 以 过 度 复 制 的 块 、 复 制 不 足 
的 块 、 未 复制 的 块 都 不 足 为 虑 。 但 是 ， 损 坏 的 块 和 失 踩 的 副本 意味 看 数据 已 永久 丢失 。 默 认 情 
况 下 ，fsck 对 损坏 的 文件 什么 也 不 做 ,但 可 以 运行 fsck 的 -delete 选项 将 其 删除 。 但 更 好 的 方式 
是 用 -move 选项 运行 fsck ， 它 会 把 已 损坏 的 文件 移动 到 /lost + found 目录 中 备用 。 

还 可 以 在 fsck 中 加 上 -files 、-blocks -locations 和 -racks 选项 ， 以 打印 出 更 多 的 信息 。 每 个 

后 续 的 选项 需要 前 面 选 项 的 存在 : -blocks 需要 -files，-locations 既 要 有 -fles， 也 要 有 -blocks， 
以 此 类 推 。-files 选项 让 fsck 每 检查 一 个 文件 便 打 印 一 行 信息 ， 包 括 文件 路 径 、 文 件 字 市 数 
与 块 个 数 ， 以 及 文件 的 状态 。-blocks 选项 进一步 让 fsck Peeve nae ATIE Eh, 
该 行 包括 块 名 、 长 度 及 其 副本 数 。-locations 选项 会 让 每 一 行 包含 块 的 副本 位 置 。-racks 选项 
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则 会 在 位 置信 息 中 增加 机 染 名 。 例 如 ， 
bin/hadoop fsck /user/ hadoop/ test-files-blocks-locations-racks, 


[hadoop&master 


/]$ hadoop fsck / -files -blocks -locations -racks 
FSCK started by 


hadoop from /192.168.0.101 for path / at Mon Jun 10 


ab. j 


13:10:26 CSI 


M475 


/hadoop/tmp/mapr ed/staging/hadoop/.staging/job 201303250 under 


44 pim 
ahi ow J 


201 0301_0013/] Under 


/hadoop/tmp/mapr ed/ 


staging/hadoop/.staging/ job . 
ee ee a a ee ee (rac n ERE NNI heen EN BAR INN OS e E INTE ee eee eee CINCO se Qu ru OS UNS VR A Le EUR UR. fe Status: 
Total size: 421654591 B 

Total dirs: 114 

Total files: 174 

Total blocks (validated): 
Minimally replicated blocks: 
Ov 'er-replicated blocks: 
under-replicated blocks: 
Mis-replicated blocks: 
Default replication factor: 
Average block replication: 
corrupt blocks: 
Missing replicas: 
Number of data-nodes: 
Number of racks: 

FSC ended at Mon Jun 


(avg. block size 2480321 B) 


(100.0 5) 


.9764706 


(4.7619047 X) 


10 13:10:26 2013 in 50 milliseconds 


ET 


The filesy: is HEALTHY 


ystem under path 
[hadoop@mas 


/]5 


图 6-2 报告 


replicated blk 


replicated blk_ 
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一 个 小 到 仅 有 一 个 数据 块 的 文件 会 给 出 如 下 的 报告 : 
如 图 6-2 所 示 。 
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7056 


HEALTHY 


虽然 fsck 会 给 出 HDFS 中 每 个 文件 的 报告 ， 
命令 ， 可 以 使 用 dfsadmin 命令 中 的 -report 选项 


Name: 192.168.0.102 
Decommission status 
Configured Capacity: 152863682560 
DFS Used: 290648064 (277.18 MB) 

Non DFS Used: 11959840768 (11.14 GB) 

DFS Remaining: 140613 1193728(130.96 GB) 
DFS Used*: 0. 5 
DFS Remaining 
Last contact: 


: 50010 
Normal 
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(142.37 GB) 


Mon Jun 10 13:11:45 CST 2013 


[hadoop&master /]$ hadoop dfsadmin -report 
conf igur ed Capacity: 305727365120 (284.73 
Present Capacity: 282010820608 (262. 64 88) 
DFS Remaining: 281562374144 

DFS Used: 448446464 (427.67 

DFS Used%: 0.16% 

Under replicated blocks: 
Blocks with corrupt replicas: 
Missing blocks: 0 


GB) 


? 
i 


Datanodes available: (2 total, 0 dead) 
Name: 192.168.0.103: 
Decommission Status Normal 
configured Capacity: 152863682560 
DFS Used: 157/98400 (150.49 MB) 
Non DFS Used: 601344 (10.95 GB) 
DFS 
DFS 
DFS 


50010 
(142. 


l ining% 
Last contact: 


on Jun 10 13:12:15 CST 2013 


50010 

Norma | 
152863682560 ( 
(277.18 MB) 
5994 3168 (11.14 GB) 
3091328(130.96 GB) 


Name: 192.168.0.102: 
Decommission Status 
configured Capacity: 
DFS Used: 290648064 
Non DFS Used: 1195 
DFS Remaining: 1406 
DFS Used%: 0.1' 
DFS Remaining 

Last contact: 


91.290952; 
Mon Jun 10 13:12: 


15 CST 2013 


[hadoop&master 


/15 | 


图 6-3 使 用 dfsadmin 命令 中 的 - -report 选项 


bin/hadoop dfsadmin -report, 


但 获知 DataNode 的 情况 却 需要 用 dfsadmin 


如 图 6-3 所 示 。 
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H Zf NameNode 的 当前 活动 状态 ， 可 以 在 dfsadmin 中 使 用 -metasave 选项 . bin/ hadoop 
dfsadmin-metasave filename 。 

这 会 将 一 部 分 NameNode 的 元 数据 保存 到 日 志 目 录 下 filename 文件 中 。 在 这 些 元 数据 中 ， 
会 发 现 竺 复制 的 块 以 及 待 删除 块 的 列表 。 每 个 块 也 会 有 一 个 复制 列表 ， 指 回 它 被 复制 到 的 
DataNode。 最 后 ， 这 个 文件 还 会 给 每 个 DataNode 统计 摘要 。 


62 了 解 HDFS 的 平衡 命令 


1. 删除 DataNode 

有 时 会 从 HDFS 集群 中 删除 DataNode， 例 如 离线 升级 或 者 维护 一 台 机 器 。 从 Hadoop 中 
删除 节点 是 非 稼 简单 的 。 虽 然 不 推荐 这 样 做 ， 但 的 确 可 以 “ 杀 死 ”节点 或 将 之 从 集群 中 崎 
JF, HDFS 的 设计 非常 有 弹性 ， 让 一 两 个 DataNode 离线 不 会 影响 操作 的 正常 运行 。NameNo- 
de 会 检测 到 节点 的 死亡 ， 并 开始 复制 那些 低 于 约定 副本 数 的 数据 块 。 为 了 让 操作 更 为 顺畅 
和 安全 ， 特 别 当 删 减 大 批 DataNode 时 ， 应 该 使 用 Hadoop 的 退役 (decommissioning ) 功能 ， 该 
功能 确保 所 有 块 在 剩余 的 活动 节点 上 仍 达 到 所 需 的 副本 数 。 要 使 用 此 功能 ， 必 须 在 NameNo- 
de 的 本 地 文件 系统 上 生成 一 个 排除 文件 (最 初 是 空 的 ) ， 并 让 参数 dfs. hosts. exclide 在 Name- 
Node 的 启动 过 程 中 指 癌 该 文件 。 当 想 删 除 DataNode 时 ， 把 它们 列 在 排除 文件 中 ， 每 行列 出 
一 个 节点 。 还 必须 用 完整 的 主机 名 ， 卫 或 了 下: port 的 格式 来 指定 节点 。 执 行 Bin/hadoop df- 
sadmin-refreeNodes 来 强制 Name Node 重新 谈 取 排除 文件 ， 并 开始 退役 过 程 。 当 此 过 程 结 
后 ，NameNode 的 日 志文 件 会 出 现 像 “Decommission complete for node 172. 16. 1.55; 50010” 
这 样 的 消息 ， 此 时 就 可 以 将 点 从 集群 中 移出 了 。 

如 果 在 启动 HDFS 时 没有 让 dfs. hosts. exclude 指 回 排除 文件 ， 退 役 DataNode 的 正确 方法 
是 关闭 NameNode， 设 置 dfs. hosts. exclude 指 回 一 个 空 的 排除 文件 ， 重 新 局 动 NameNode。 在 
NameNode 成 功 重 启 后 ， 就 可 以 按照 上 面 的 步骤 操作 。 请 注意 ， 如 果 在 重启 NameNode 之 前 
在 排除 文件 中 列 出 了 需要 删 减 的 DataNode, HI’ NameNode WEW, mÆ H P h 
" ProcessReport form unregistered node; node055; 50010” 这 样 的 消息 。NameNode 会 认为 它 接 
触 到 的 是 系统 之 外 的 DataNode ， 而 不 是 即将 删除 的 节点 。 

如 于 退役 的 机 各 在 后 来 的 某 个 时 刻 还 会 重新 加 入 集群 ， 应 该 在 外 部 文件 中 删除 它们 ， 并 
重新 执行 bin/ hadoop dfsadmin-refreshNodes 来 更 新 NameNode。 当 机 需 已 经 准备 好 重新 加 入 集 
群 时 ， 可 以 按照 后 面 介绍 的 步骤 来 添加 它们 。 

2. 增加 DataNode 

除了 让 离线 维护 的 机 各 重新 上 线 ， 可 能 还 会 在 Hadoop 集群 中 增加 DataNode， 以 便 有 更 
多 的 作业 来 处 理 更 多 的 数据 。 采 用 与 集群 中 所 有 DataNode 都 一 样 的 方式 在 新 节点 上 安装 Ha- 
doop 并 设置 配置 文件 。 手 动 启动 DataNode 的 守护 进程 (bin/hadoop datanode) o ES A JIKA 
NameNode 并 加 入 集群 。 还 应 把 新 市 点 添加 到 主 服务 兹 的 conf/slaves 文件 中 。 脚 本 命令 会 识 
别 到 新 节点。 

当 添 加 一 个 新 的 DataNode 时 ， 它 最 初 会 是 空 的 ， 然 而 早先 的 DataNode 已 经 存 了 一 些 内 
容 ， 这 时 文件 系统 被 认为 是 不 平衡 的 。 新 的 文件 将 有 可 能 进入 新 市 点 ， 但 其 副本 仍 会 进入 先 
前 的 节点 。 我 们 应 该 主动 地 司 动 HDFS 平衡 从 来 获得 最 优 性 能 。 平 衡 硕 的 运行 脚本 为 bin/ 
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start-balancer. sh ， 该 脚本 将 在 后 台 运 行 ， 和 直到 集群 达到 平衡 为 止 。 管 理 员 还 可 以 提前 终止 
它 ， 即 运行 bin/stop-balancer. sh, 

当 所 有 DataNode 的 利用 率 处 于 平均 利用 率 加 减 一 个 国 值 的 范围 内 时 ,集群 就 彼 认 为 是 
平衡 的 。 当 局 动 一 个 平衡 各 脚本 时 ， 可 以 指定 一 个 不 同 的 国 值 为 10% ， 当 局 动 平 衡 顶 脚本 
时 ， 也 可 以 指定 一 个 与 此 不 同 的 国 值 。 例 如 ， 要 设置 闵 值 为 5% 以 便 让 集群 达到 更 优 的 均匀 
分 布 ， 需 这 样 局 动 f zs: bin/start-balancer. sh-threshold 5, 

因为 均衡 操作 会 占用 网 络 资源 ， 建 议 在 晚上 或 者 周末 做 ， 此 时 集群 可 能 不 会 太 忙 。 或 
者 ， 可 以 设置 dfs. balance. bandwidthPerSec 参数 ， 以 限制 用 于 做 均衡 的 带 寺 。 


6.3 权限 设置 


HDFS 采用 类 似 于 POSIX 语义 的 基本 文件 权限 管理 系统 。 每 个 文件 有 九 种 权限 设置 ; 与 
每 个 文件 关联 的 所 有 者 组 和 其 他 用 户 分 别 有 读 (r) 、 写 (w) 和 执行 (x) 权 限 。 不 是 所 有 的 权限 
设置 都 有 意义 。 在 HDFS 中 不 能 执行 文件 ， 所 以 不 设置 文件 的 x 权限 。 

目录 的 权限 设置 也 严格 遵循 POSIX 38 X, BUR r 允许 列 出 目录 ， 权 限 w 允许 创建 或 删除 
文件 或 目录 ， 权 限 x 允许 访问 子 目 录 。 

当前 版 本 的 HDFS 没有 太 多 安全 上 的 考虑 。 使 用 HDFS 的 权限 管理 系统 只 是 为 了 防止 在 
共享 Hadoop 集群 的 受信 任用 户 之 间 发 生 数 据 的 夸 外 误 用 和 和 窗 盖 。HDFS ADU ETE 
份 验证 ， 并 相信 用 户 就 是 主机 操作 系统 所 声称 的 号 份 。Hadoop 的 用 户 名 就 是 登录 名 ， 等 同 
于 whomi 所 示 的 用 户 。 组 列表 与 bash-e groups 所 列 出 的 一 致 。 局 动 name node 的 用 户 名 是 一 
个 例外 ， 该 用 户 名 有 一 个 特别 的 Hadoop 用 户 名 ， 即 superuser。 这 个 超级 用 户 可 以 执行 任何 
文件 操作 ， 不 受权 限 设置 的 约束 。 此 外 ,管理 员 可 以 在 一 个 超级 用 户 组 中 通过 配置 参数 
dfs. permissions. supergroup 来 指定 成 员 。 所 有 超级 用 户 组 的 成 员 也 都 是 超级 用 户 。 

更 改 权 限 设置 和 所 有 权 可 以 使 用 bin/hadoop fs-chmod, -chown 以 及 -chgrp。 使 用 方式 与 
UNIX 操作 系统 中 对 应 的 命令 类 似 。 


6.4 配额 管理 


上 默认 情况 下 ，HDFS 不 设 任何 配额 来 限制 一 个 目录 中 可 以 放 多 少 内 容 。 可 以 在 指定 目录 
上 局 用 和 指定 所 谓 的 名 字 配 额 ， 限 制 放 在 该 目录 下 的 文件 名 和 目录 名 的 个 数 。 其 主要 用 途 是 
防止 用 户 生成 过 多 的 小 文件 ， 令 NameNode 负担 过 重 。 以 下 命令 用 于 设置 和 清除 名 字 配 额 : 

bin/hadoop dfsadmin-setQuota <N > directory | -+-directory | 

% bin/hadoop dfsadmin-clrQuota directory | -+-directory | 

HDFS 从 0. 19 版 开始 ， 还 支持 对 每 个 日 录 做 空间 配额 。 它 有 助 于 管理 一 个 用 户 或 应 用 
程序 可 用 的 存储 量 : 

bin/hadoop dfsadmin-setSpaceQuota <N > directory [**directory | 


% bin/hadoop dfsadmin-clrSpaceQuota directory | -+-directory | 
在 SetSpaceQuota MEF, foe FET A RAC A CEA EL, PBB VA 
后 缀 来 表示 单位 。 例 如 ，20g 将 代表 20GB, iij St 则 代表 5TB。 所 有 的 副本 都 计 入 配额 。 
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石 要 获取 目录 的 配额 ， 以 及 它 使 用 的 名 字 个 数 和 了 字 节 数 ， 可 使 用 市 有 -g 选项 的 HDFS 


shell 命令 count; Bin/hadoop fs-count-q directory [ ---directory ] 。 


6.5 局 用 回收 闻 


除了 文件 权限 之 外 ， 还 有 一 个 保护 机 制 可 以 防止 在 HDFS 上 意外 删除 文件 ， 这 就 是 回收 
站 。 默 认 情 况 下 该 功能 被 蔡 用 。 当 它 司 用 后 ， 用 于 删除 文件 的 命令 行程 序 不 会 立即 删除 文 
件 。 相 反 ， 它 们 暂时 把 文件 移动 到 用 户 工 作 目 录 下 的 . Trash/ 文 件 夹 下 。 在 用 户 设置 的 时 间 
延迟 到 来 之 前 ， 它 都 不 会 被 永久 删除 。 只 要 文件 仍 在 ,Trash/ 文 件 夹 下 ， 你 就 可 以 通过 将 它 
移动 到 原来 位 置 的 方法 来 恢复 它 。 

在 要 局 用 回收 站 功能 并 设置 清空 回收 站 的 时 间 延 迟 ， 可 以 通过 设置 core-site. Xml 的 
fs. trash. interval 属性 (以 min 为 单位 )。 例 如 ， 如 果 和 希望 用 户 有 24h(1440min ) 的 时 间 来 还 原 
已 删除 的 文件 ， 应 该 在 core-site. xml 中 设置 : 

< property > 


< name > fs. trash. interval </name > 

< value > 1440 </value > 

</ property > 

石 将 该 值 设置 为 0， 则 将 禁用 回收 站 功能 。 
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7.1 使 用 HDFS 上 传 文件 


7.1.1 实验 目的 


1) 熟悉 HDFS THEM, 
2) 学 会 使 用 HDFS 上 传 文件 。 


7.1.2 实验 设备 


1) 硬件 : 云 计算 一 体 机 、PC。 
2) 软件 : SecureCRT, 


7.1.3 实验 内 容 


1) 使 用 SecureCRT 工具 操作 集群 。 
2) 使 用 HDFS 上 传 文件 。 


7.1.4 实验 原理 
程序 源码 如 下 . 


import java. io. BufferedInputStream ; 


import java. io. FileInputStream ; 
import java. io. IOException ; 
import java. io. InputStream ; 
import java. io. OutputStream ; 


import java. net. URI; 


HDFS 实践 


import org. apache. hadoop. conf. Configuration ; 


import org. apache. hadoop. fs. FileSystem ; 


import org. apache. hadoop. fs. Path; 


import org. apache. hadoop. io. IOUtils ; 


import org. apache. hadoop. util. Progressable ; 


publie class UploadFile2HDFS | 
jf 5c 
* @ param args 


* @ throws IOException 
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*/ 
public static void main( String| | args) throwsIOException | 
//TODO Auto-generated method stub 
if( args. length <2) | 
System. out. println(" parameter error ") ; 
| else | 
String localSre = args| 0 | ; 
String dst = args[1]; 
InputStream in = new BufferedInputStream( new FileInputStream ( 
localSre ) ) ; 
Configuration conf = HadoopConfiguration. getConfiguration( ) ; 
FileSystem fs = FileSystem. get( URI. create( dst) , conf) ; 
boolean overwrite = false ; 
if( args. length > =3) | 


overwrite = Boolean. parseBoolean( args| 2 | ) ; 


| 
int bufferSize 2 4096 ; 


if( args. length > =4) | 

bufferSize = Integer. parseInt( args| 3 | ) ; 
| 
short replication 22; 
if( args. length > =5) | 

replication = Short. parseShort( args| 4 | ) ; 
| 
long blockSize = 1024L * 64 * 1024; 
if( args. length > =6) | 

blockSize = 1024L * Long. parseLong( args| 5 | ) * 1024; 
| 
OutputStream out = fs. create( new Path( dst) , overwrite, bufferSize, 

replication , blockSize, new Progressable( ) | 
publie void progress( ) | 
System. out. print(". ") ; 


is 
IOUtils. copyBytes(in, out, 4096, true) ; 
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7.1.5 实验 步骤 
1) 先 给 本 地 机 大 上 传输 一 个 视频 数据 ， 如 图 7-1 所 示 。 


sfipy/hadoop@ master - FileZilla k=l] 
File Edit Whew Transfer Sewer Bookmarks Help RASHES iT All 
Pa (al a E E 
Jimaster Usemame: hadoop Password: ssssssss+ Port: | Quickconnect ||~ 


and: put "CAU 


j beate Jhadaap/ experiment, file txt 
it Fie trar 
Status: Deconnacted from server * 
imovel = | Remote ste: /home/hadoop/ experiment - 
二 hadoop a 
SRECYCLE.EIN * mosla 
gE Download 7 ,sh 
english experiment | 
luxiang 全 hadoop-1.0.1 1 
movie T hadoop-1.04 
Systern Volume Information y w 
Filename Filesze Filetype Last modified Filename Filesize Filetype Last modified Permissions  QwnerfGre... 
E hadoog ha. 
T 5 alin $4 TETTE dewnloz... hadoog ha... 
EO BUZISEpisohus. om EEEN rip ERF rmvb 565,545,008 RMVE File english.tzt 
ES [ipid] FAHR 733,485,092 MKV File Ger, ar 
EU [GvfgE www.dyi31.com] LEDE H B RMVB File E filet. 
E EbvESESwww.dy131.com] RER RMNB File fille] txt 
EH [iEnd] PERE RMVB File file2. txt 
全 【6u 归 影 wwwdt13l.com] E BMWS File file3 bet 
E [iE om] Fe 14808109.. RMVB File L mathtrt hadoog ha. 
E [iEEwwwedyl.com] FARA 1.765, MEN File Textl.txt ha ha... 
BU 【6 二 Erwwdyl3l.com] TK 3,3845250.. RMVB File 03/11/2012 17:12:25 Text2 tz hadapg ha... 
Selected 1 file. Total size: 405,183 253 bytes 11 files. Total size: 36,723 bytes 
Serer Local file Direction Remote file Sue Priority Status 


Queved files Failed transfers Successful transfers (31) 


ims Queue empty LE 


图 7-1 上 传 数据 到 集群 
2) 用 命令 行 查看 ， 文 件 传输 是 否 成 功 11， 如 图 7-2 所 示 。 


图 7-2 用 命令 行 查看 
3) 因为 名 字 比 较 长 ， 所 以 用 mv 命令 换 一 个 名 字 ，mv *. * ， 如 图 7-3 rm, 


图 7-3” 换 一 个 名 字 
4) 然后 上 传 文件 ， 其 中 有 几 个 参数 可 以 随意 更 改 : 


第 一 个 是 文件 如 果 已 BATE , Ef Eu? true/false, 

第 二 个 是 缓存 大 小 ， 这 个 只 有 当 文 件 非常 大 时 会 有 用 ，4096 24K, 
第 三 个 是 是 否 要 备份 ， 备 份 几 份 ， 默 认 是 2 。 

第 四 个 是 块 的 大 小 ， 默 认 是 64MB ， 可 更 改 。 
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5) 然后 执行 
4096 1 128, eiii 面 访问 查看 ， 如 图 7-4 Bra. 


Contents of direc 


tory /experiment 


程序 hadoop jar exp. jar UploadFile2HDFS = . 


* /experiment/upload/ * . 


/experiment 

Go to parent direct 

Name [Type Size [Replication [Block Size llodi fication Time [Permission |Omer [Group 
dedup fdir | | [2013-03-25 03:28 |rwxr-xr-3 [hadoop [supergroup 
score [dir | | [2013-03-25 04:07 |rwar-zr -1 |hadoep [supergroup 
sort [aiz | | [2013-03-25 03:39 |rwar-zr-a |hadoep [supergroup 
stioin [dir | 2013-03-25 04:23 |rwxr-xr-1 |hadoop |supereroup 
textl. txt [file|2. 93 KB|2 64 Nb — [2013-03-25 03:09 [rw-r—r— ||hadoop [supergroup 
TEE lair | | | [2013-03-25 04:34 |raxr-rr -x |hadoop [supergroup 


Local logs 


Log directory 


This is Apache Hadoop release 1.0.1 


图 7-4 页 面 浏览 上 传 文件 夹 
进入 ， 如 图 7-5 所 示 。 


tory /experiment/upload 


6) A 


Contents of direc 


"upload" 


roe [ize —— [Replication Block Size Modification Ti 
faa Ri a 41 Bl [i28 NB 2013-03-25 04:34 |ra--—c eme em eem oup 


Local logs 


Log directory 


This is Apache Hadoop release 1.0.1 


图 7-5 页面 浏览 上 传 文件 


7) 可 以 看 到 里 面 已 经 有 了 刚才 上 传 的 文件 ， 并 且 看 到 了 后 面 的 参数 。 


7.2 使 用 HDFS 浏览 文件 和 目录 


7.2.1 实验 目的 


1) AZ HDFS 浏览 文件 和 目录 的 原理 。 
2) 学 会 使 用 HDFS 浏览 文件 和 目录 。 


实验 设备 


1) 硬件 : 云 计算 一 体 机 、PC。 
2) 软件 : SecureCRT, 


实验 内 容 


1) 使 用 SecureCRT 工具 连接 集群 。 
2) 使 用 HDFS 浏览 文件 和 目录 。 


7.2.4 实验 原理 
文件 查看 、 文 件 夹 查看 程序 源码 如 下 : 


7. 2. 2 


Ides 


* false 
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import java. io. IOException ; 


import java. text. SimpleDateFormat ; 


import java. util. Date; 


import org. 
import org. 
import org. 


import org. 


apache 
apache 
apache 


apache 


. hadoop. conf. Configuration ; 
. hadoop. fs. FileStatus ; 

. hadoop. fs. FileSystem ; 

. hadoop. fs. Path; 


public class HDFSFileShow | 


7 5o 


* @ param args 


* (9 throws IOException 


x / 


public static void main( String| | args) throws IOException | 
//TODO Auto-generated method stub 
if( args. length « 1) | 


System 


| else | 


| 


. out. printIn(" parameter error ") ; 


SimpleDateFormat format = new SimpleDateFormat( 


" yyyy-MM-dd HH : mm:ss ) ; 


Configuration conf = HadoopConfiguration. getConfiguration ( ) ; 


FileSystem hdfs = FileSystem. get( conf) ; 
Path path = new Path( args| 0] ) ; 
FileStatus stat = hdfs. getFileStatus( path) ; 


System 


System. 
System. 
System. 


System. 
System. 
System. 
System. 


. out. println ( X [ERES ." + stat. getPath( ). toUri( ). getPath( ) ) ; 
out. println( "是否 是 目录 :”+ stat. isDir( ) ) ; 
out. println (X FEX] ;" + stat. getLen( ) ) ; 
out. printIn ( ME Bit H 8j ." 
+ format. format( new Date( stat. getModificationTime( ) ) ) ) ; 
out. printIn(" 文 件 副本 个 数 ." + stat. getReplication( ) ) ; 
out. println(" 文 件 拥 有 者 :" + stat. getOwner( ) ) ; 
out. println(" 文 件 用 户 组 ."+ stat. getGroup( ) ) ; 
out. println(" 文 件 权 限 ." + stat. getPermission( ) ) ; 


DU A H SEE DR AU P. 
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import java. io. IOException ; 
import java. text. SimpleDateFormat ; 


import java. util. Date; 


import org. apache. hadoop. conf. Configuration ; 
import org. apache. hadoop. fs. FileStatus ; 
import org. apache. hadoop. fs. FileSystem ; 
import org. apache. hadoop. fs. Path ; 


publie class HDFSFolderShow | 


/ * * 
* @ param args 
* @ throws IOException 
*/ 
public static void main (String | | args) throws IOException | 
//TODO Auto-generated method stub 
if (args. length « 1) | 
System. out. println ("parameter error ") ; 
| else | 
SimpleDateFormat format = new SimpleDateFormat ( 
" yyyy-MM-dd HH: mm: ss"); 
Configuration conf = HadoopConfiguration. getConfiguration ( ) ; 
FileSystem hdfs = FileSystem. get (conf) ; 
Path path = new Path (args [0]); 
FileStatus folder = hdfs. getFileStatus (path) ; 
if (folder. isDir ()) | 
FileStatus | | array = hdfs. listStatus (path) ; 
for (FileStatus stat ; array) | 
System. out. println. (" 文 件 路 径 : " 
+ stat. getPath ( ) .toUri () . getPath ()); 
System. out. println (〈 "是否 是 目录 : "+ stat. isDir () ) ; 
System. out. println. (" 文 件 大 小 : "+ stat. getLen ()) ; 
System. out 
. prinln. (MBP A," 
+ format. format (new Date (stat 
. getModificationTime ()))); 
System. out. println (〈" 文 件 副 本 个 数 : "+ stat. getReplication ( ) ) ; 
System. out. println. ("文件 拥有 者 : "+ stat. getOwner ()); 
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System. out. println. (" 文 件 用 户 组 : "+ stat. getGroup ()); 
System. out. println ("文件 权限 . "+ stat. getPermission ( ) ) ; 
System. out. println ("------------------------------------ 2 


| 


| else | 


System. out. println ("该 文件 为 非 目录 ! ") ; 


| 
7.2.5 实验 步骤 


ju] 3, xc PF BSC P ESE AER P: 运行 程序 hadoop jar exp. jar HDFSFileShow /experi- 
ment/upload/ *. * ATW Bee suc ERSTE, WU 7-6 所 示 。 


opümasrer experimenr]$ hadoop jar exp. jar HDFSri li 


exper iment,/upload, m FEE. rmvb 


BIB. rw-r--r-- 
"nplmast er experiment | 4 


图 7-6 浏览 文件 或 文件 夹 
浏览 目录 实验 步骤 : 运行 程序 ， 可 以 看 到 文件 夹 下 的 内 容 , hadoop jar exp. jar HDFSFold- 
erShow /experiment/score, ， 如 图 7-7 ra. 


图 7-7 浏览 目录 
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7.3 使 用 HDFS 打开 、 下 载 和 删除 文件 


7.3.1 实验 目的 


1) 熟悉 HDFS 打开 、 下 载 和 删除 文件 的 原理 。 
2) 使 用 HDFS 打开 、 下 载 和 删除 文件 。 


7.3.2 实验 设备 


1) 硬件 : 云 计算 一 体 机 、PC。 
2) 软件 : SecureCRT, 


7.3.3 实验 内 容 


1) 使 用 SecureCRT 连接 集群 。 
2) 使 用 HDFS 打开 、 下 载 和 删除 文件 。 


7.3.4 实验 原理 
打开 文件 程序 源码 如 下 : 


import java. io. IOException ; 

import java. io. InputStream ; 

import org. apache. hadoop. conf. Configuration ; 
import org. apache. hadoop. fs. FileSystem ; 
import org. apache. hadoop. fs. Path; 

import org. apache. hadoop. io. IOUtils ; 


publie class HDFSFileCat | 


/ ko 
* @ param args 
* @ throws IOException 
* / 
public static void main ( String| | args) throws IOException | 
//TODO Auto-generated method stub 
if( args. length ! = 1) | 
System. out. println(" parameter error ") ; 
else | 
Configuration conf = HadoopConfiguration. getConfiguration ( ) ; 
FileSystem hdfs = FileSystem. get( conf) ; 
Path path = new Path(args[ 0] ) ; 
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InputStream in = null; 
try | 

in = hdfs. open( path) ; 

IOUtils. copyBytes( in, System. out, 4096, false) ; 
| finally | 

IOUtils. closeStream( in ) ; 


下 载 文 件 程 序 源 人 码 如 下 : 
import java. io. BufferedOutputStream ; 


import java. io. File; 


import java. io. FileOutputStream ; 

import java. io. IOException ; 

import java. io. InputStream ; 

import java. io. OutputStream ; 

import org. apache. hadoop. conf. Configuration ; 
import org. apache. hadoop. fs. FileSystem ; 
import org. apache. hadoop. fs. Path; 

import org. apache. hadoop. io. IOUtils ; 


public class DownloadHDFSFile | 


J x * 
* @ param args 
* @ throwsIOException 
* / 
public static void main(String| | args) throwsIOException | 
//TODO Auto-generated method stub 
if( args. length «2) | 
System. out. println(" parameter error ") ; 
| else | 
OutputStream bos = new BufferedOutputStream ( new FileOutputStream( 
new File( args| 1 |) ) ) ; 


Configuration conf = HadoopConfiguration. getConfiguration( ) ; 
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FileSystem fs = FileSystem. get( conf) ; 
Path hdfs = new Path( args| 0 | ) ; 
InputStream hadopin = null; 
int bufferSize = 4096 ; 
if( args. length > 23) | 
bufferSize = Integer. parseInt( args| 2 | ) ; 


| 


try | 

hadopin = fs. open( hdfs, bufferSize ) ; 

IOUtils. copyBytes( hadopin, bos, 4096, false) ; 
| finally | 


IOUtils. closeStream ( hadopin ) ; 
[OUtils. closeStream( bos ) ; 


删除 文件 程序 源码 如 下 : 
import java. io. IOException ; 
import org. apache. hadoop. conf. Configuration ; 
import org. apache. hadoop. fs. FileSystem ; 
import org. apache. hadoop. fs. Path; 


public class DeleteHDFSFile | 


y deo 
x @ param args 
* @ throws IOException 
* / 
public static void main(String| | args) throwsIOException | 
//TODO Auto-generated method stub 
if( args. length! 21) | 
System. out. println(" parameter error ") ; 
| else | 
Configuration conf = HadoopConfiguration. getConfiguration( ) ; 
FileSystem fs = FileSystem. get( conf) ; 
Path hdfs = new Path( args| 0 | ) ; 
fs. delete( hdfs, true) ; 
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7.3.5 实验 步骤 


1 ) 打 开 文 件 ， 运 行程 序 hadoop jar exp. jar HDFSFileCat /experiment/score/math. txt， 如 图 
7-8 所 示 。 


图 7-8 打开 文件 
2) 下 载 文件 ， 运 行程 序 hadoop jar exp. jar DownloadHDFSFile /experiment/score/eng- 
lish. txt . /download. txt, 


3) 查看 是 否 下 和 载 下 来 1， 如 图 7-9 所 示 。 


图 7-9 查看 是 否 下 载 下 来 
4) 再 打开 文件 ， 看 内 容 是 否 正 确 ，cat download. txt， 如 图 7-10 所 示 。 


oapümasreé£f ex per Imenr]$ cat download, TAT 


图 7-10 看 内 容 是 否 正确 


5) 删除 文件 时 ， 先 查看 要 删除 的 文件 ， 如 图 7-11 Bras. 


File: 


cle! 
Goto : experiment go 
fo Sack to dir fisting 
Advanced view, freer aid options 
cet) EL erp 99 ^ Q09Q9Q-- Liu O000#000000X ac Oho Oo Og 0 OO Og000U00HUdg0 
BDEDBDLBmDCBBSSDBDHa3D DOOEOOOD fo0,o00+ BC eee ete eee OZ ges 0222409022 000070 


—^mmmmmmmmmmmmmmmmnm-mmmmim—^mmmmmmmmmammmmmmmmmmnmimTmanmnmnmnmm 


$9990994 99. 9901749991979 9799900999990 490909909 990:9 999909099 9909-999 9949 959494994 4-944999 044 4904 E OG 
9949997 5994999994991 999949 99499999999919 


$0090 9 T EH EHH 19H09 D 4HO- 

$99996999910:6099-00 OOHOOH HOHO- 0090090090000 000000000900000: 000 909090000:0909000600001-0000600:00000000609 6 
TODTOOL OTTO OOOO 

9999:9:9991 999 699-9999 999 


99696696669:60691676. 6660610606 66606106 -6969696:699969699969969999969:9 
Heh Gu OOOO HOHER E te 


图 7-11 查看 要 删除 的 文件 
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6) 运行 程序 hadoop jar exp. jar DeleteHDFSFile /experiment/Textl. txt， 然 后 刷新 页 面 ， 
如 图 7-12 所 示 。 


HTTP ERROR 500 


Problem accessing /browseBlock. jsp. Reason: 
INTERHAI, SERVER ERROR 


Caused by: 


java, lang. NullPointerException P 

org. apache, hadoop. hdfs, server. dat anode, browseBlock j3p. generet eFileChunks (browszeBlock, jsp. java: 299) 
org. apache. hadoop. hdf£z. server. datanade. browseBlock jsp. jspService(browseBlock jsp. java:457) 
org. apache. jasper. runtime. Http] zpBase. service (HttpIzpBaze. java: 3T) 
javax.servlet.http.HttpServlet. service (HttpServlet. java: 820) 

ürg.nartbay. jetty.sarvlaet. ServletHoldar.hasndüle(SaerwlatHolder. jawa:B511) 

org.nortbay. jetty. servlet. ServletHandlerfCachedChain. doFilter(SsrwlatHandler. jaa: 1221) 
org. apache. hadoop. http. HttpServer$QuatingInputFilter. doFilter(Httpserwer. java:835) 

org. nortbay, jetty. servlet, SeryletHandler$ ached hair. doFilter(Servletlandler. java: 1212) 
org.nartbay. jetty. servlet, ServletHandler. handle(ServletHandler. jaar 399) 

org. northay. jetty. security. SecurityHandler. handle (SecurityHandler. java: 216) 

org. morthay. jetty. servlat, SegglonHandler. handle (SessionHandler. jawa: 182) 

org. morthay. jetty. handler, Cont extHandler. handle (ContastHandler. jawa: THÉ) 

ürg.nartbay. jetty. webapp. WebhppCont ext. handle (WebáppContezt. java:dB0 

org. nortbay,. jetty. handler, Cont extHandlerCollection. handle (Cont extHandlerCollectiaor, java: 230) 
org. northay. jetty. handler, Handler¥rapper. handle (HandlecWeepper. javas 152) 

org.nartbay. jetty. Server. handle (Server. jawa: 326) 

org. mortbay. jetty. HttpConnect ion hand leRequert (HttpCaonnect ion. jara: 52) 

org. northay. jetty. HttpConnect ionéRequastHandler. headarComplete(HttpCannect Lon, java:928) 
org.nortbay. jetty. HttpParser.parseWext (HrtpParser. java: 546) 

org. northay, jetty.HttpParser. parsedvailable (HttpParser. java: 212) 

org.nortbay, jetty. HttpConnecticn. handle (HttpConnection. jave: 404) 

ürg.nartbay. in. nio. SelectChannelEndPoint. run(SelectChannelEndPoint. jawa: dll) 

arg.narthay. thread. QuauedThreadPoo) $Pool Theead. run (QueuedThreadPnal. java: 582) 


BRASS RRRAR ARR RRA ARRAS 


Al7-12 ”查看 已 经 删除 的 文件 
7) 出 错 ， 说 明文 件 已 经 不 存在 了 了， 删除 成 功 。 


3 8 a MapReduce 和 实践 


8.1 XH KREI 


8.1.1 实验 目的 


“数据 去 重 ” 主要 是 为 了 和 擎 握 和 利用 并 行 化 思想 来 对 数据 进行 有 意义 的 猎 选 。 统 计 大 
数据 集 上 的 数据 种 类 个 数 、 从 网 站 日 志 中 计算 访问 地 等 这 些 看 似 庞杂 的 任务 都 会 涉及 数据 去 
重 。 下 面 就 进入 这 个 MapReduce 程序 设计 实例 。 

8.1.2 实验 设备 


1) 硬件 : 云 计算 一 体 机 、PC。 
2) 软件 : SecureCRT, 


8.1.3 实验 内 容 


对 数据 文件 中 的 数据 进行 去 重 ， 数 据 文件 中 的 每 行 都 是 一 个 数据 。 

样 例 输入 如 下 所 示 : 

1) 文件 一 : 
2012-3-1 a 
2012-32 b 
2012-3-3 c 
2012-3-4 d 
2012-3-5 a 
2012-3-6 b 
2012-3-7 c 
2012-3-3 c 

2) MAF, 
2012-3-1 b 
2012-3-2 a 
2012-3-3 b 
2012-3-4 d 
2012-3-5 a 
2012-3-6 c 
2012-3-7 d 
2012-3-3 c 
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样 例 输出 如 下 所 示 : 
2012-3-1 a 
2012-3-1 b 
2012-3-2 a 
2012-3-2 b 
2012-3-3 b 
2012-3-3 c 
2012-3-4 d 
2012-3-5 a 
2012-3-6 b 
2012-3-6 ¢ 
2012-3-7 ¢ 
2012-3-7 d 


8.1.4 实验 原理 


1. 设计 思路 

数据 去 重 的 最 终 目标 是 让 原始 数据 中 出 现 次 数 超过 一 次 的 数据 在 输出 文件 中 只 出 现 一 
次 。 我 们 目 然而 然 会 想到 将 同一 个 数据 的 所 有 记录 都 交 给 一 人 台 reduce 机 釉 ， 无 论 这 个 数据 
出 现 多 少 次 ， 只 要 在 最 终结 果 中 输出 一 次 就 可 以 了 。 具 体 就 是 reduce 的 输入 应 该 以 数据 作 
为 key， 而 对 value-list 则 没有 要 求 。 当 reduce 接收 到 一 个 < key，value-list > 时 就 直接 将 key 
复制 到 输出 的 key 中 ， 并 将 value 设置 成 空 值 。 

Æ MapReduce 流程 中 ，map 的 输出 < key, value > 经 过 shuffle 过 程 聚 集成 < key, value- 
list > 后 会 交 给 reduce。 所 以 从 设计 好 的 reduce 输入 可 以 反 推 出 map 的 输出 key 应 为 数据 ， 
value 任意 。 继 续 反 推 ，map 输出 数据 的 key 为 数据 ， 而 在 这 个 实例 中 每 个 数据 代表 输入 文 
件 中 的 一 行内 容 ， 所 以 map 阶段 要 完成 的 任务 瓯 是 在 采用 Hadoop 默认 的 作业 输入 方式 之 
后 ， 将 value 设置 为 key， 并 直接 输出 (输出 中 的 value 任意 ) 。map 中 的 结果 经 过 shuffle 过 
程 之 后 交 给 reduce, reduce 阶段 不 会 管 每 个 key 有 多 少 个 value， 它 直接 将 输入 的 key 复制 
为 输出 的 key， 并 输出 就 可 以 了 (输出 中 的 value 被 设置 成 空 了 )。 

2. 程序 源码 


import java. io. IOException ; 


import org. apache. hadoop. conf. Configuration ; 
import org. apache. hadoop. fs. FileSystem ; 
import org. apache. hadoop. fs. Path; 


import org. apache. hadoop. io. Text ; 

import org. apache. hadoop. mapreduce. Job ; 

import org. apache. hadoop. mapreduce. Mapper; 

import org. apache. hadoop. mapreduce. Reducer; 

import org. apache. hadoop. mapreduce. lib. input. FileInputFormat ; 
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import org. apache. hadoop. mapreduce. lib. output. FileOutputFormat ; 
public classDedup | 


//map 将 输入 中 的 value 复制 到 输出 数据 的 key 上 ,并 直接 输出 
public static class Map extends Mapper < Object, Text, Text, Text > | 
private static Text line = new Text( ) ;// 每 行 数据 

// SI map PRA 

public void map( Object key, Text value, Context context ) 

throws IOException, InterruptedException | 

line = value; 


context. write( line, new Text(™) ) ; 


| 


/ / reduce 将 输入 中 的 key 复制 到 输出 数据 的 key 上 ,并 直接 输出 


public static class Reduce extends Reducer < Text, Text, Text, Text > | 
// 实 现 reduce PKA 


public void reduce( Text key, Iterable < Text > values, Context context ) 
throws IOException, InterruptedException | 


context. write( key, new Text(™) ) ; 


public static void main( String| | args) throws Exception | 
if( args. length! =2) | 
System. err. printIn(" Usage: Data Deduplication «in > «out >"); 
System. exit(2) ; 
| 
Configuration conf = new Configuration( ) ; 
FileSystem fs = FileSystem. get( conf) ; 
Path result = new Path( args| 1 | ) ; 
if( fs. exists ( result) ) | 
fs. delete( result, true) ; 
| 
Job job = new Job( conf, "Data Deduplication ") ; 
job. setJarByClass ( Dedup. class ) ; 


// 设 置 Map , Combine 和 Reduce 处 理 类 


121 


A 第 2 篇 基础 实践 部 分 A 


job. setMapperClass( Map. class ) ; 
job. setCombinerClass ( Reduce. class ) ; 


job. setReducerClass ( Reduce. class ) ; 


// 设 置 输出 类 型 
job. setOutputKeyClass ( Text. class) ; 
job. setOutputValueClass ( Text. class ) ; 


// 设 置 输入 和 输出 目录 
FileInputFormat. addInputPath( job, new Path( args| 0 | ) ) ; 


9 


FileOutputFormat. setOutputPath( job, result) ; 
System. exit( job. waitForCompletion( true) ? 0:1) ; 


| 
8.1.5 实验 步骤 


1) 首先 在 /experiment/dedup/ 文 件 夹 下 上 传 两 个 实例 文件 ， 并 且 创 建 一 个 空 文件 ， 为 了 
一 会 儿 存 放 输 出 数据 ， 如 图 8-1 所 示 。 


Contents of directory /experiment/dedup 


Go back to DFS home 


Local logs 


Log directory 


This is Apache Emdoop relemsc 1.0.1 


图 8-1 创建 文件 夹 
2) 然后 执行 程序 hadoop jar exp. jar Dedup /experiment/dedup /experiment/dedup/result, FJ 
以 在 页 面 下 看 到 运行 进度 ， 运 行 完 毕 后 ， 去 result 文件 中 看 结果 ， 如 图 8-2 和 图 8-3 所 示 。 


File: /experiment/dedup/filel. txt 


Al8-2 查看 示例 文件 一 
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File: /experiment/dedup/file2. txt 


图 8-3 ”查看 示例 文件 二 
3) 在 页 面 能 看 到 Running Jobs 里 有 一 个 任务 在 运行 。 
4) 打开 这 个 任务 ， 可 以 看 到 任务 里 面 的 内 容 ， 如 图 8-4 所 示 。 


Identifier: 201303250301 Quick Links ^ 


Cluster Summary (Heap Size is 52.06 MB/888. 94 MB) 


gue ce 
Total Occupied Reserved Map Task Blacklisted | Graylisted | Excluded 
Fea Nodes irae Tae 
indt Tasks Submissions Hap Slots Slots Hap Slots ae ng Capacity Caci i de Nodes Nodes Nodes 
2.00 Q 0 


Scheduling Information 


[Queue Nane | State | Scheduling Information 


[default || running ||N/A 


Filter (Jobid, Priority, User, Name) 
Example: 'user:snith 3200’ will filter by 'smith' only in the user field and '3200' in all fields 


Jubid Uselt Hap & Hap Maps Reduce % Reduce Reduces Job Scheduling Diagnostic 
Complete |Total |Completed | Complete Total Completed Information Info 

i Data 0. 00% 0. 008 

Job 201303250301 0010 E 

A 


Completed Jobs 


Tap & eae Jub a ing. agnostic 
ee SS ee ee 


图 8-4 ”页 面 浏览 任务 
5) 并 有 旦 可 以 看 到 任务 分 配给 了 哪个 主机 去 运行 ， 如 图 8-5 ~ 图 8-7 所 示 。 


Hadoop job 201303250301 0010 on master 


User: hadanp 

Job Hame: Data Decii ation 

Job File: ndfs: x: :9100/hadoop 
it Host: RE 

Submit Host Address: 192.168.0. 101 

Job-ACLs: All users are allowed 


ing 
Started at: Mon Nar 25 04:44:26 CST 2013 
ng for: sex 
Job El Pending 


Kind |s Complete | Num Taske | Pending Running Complete 
= | | :| af e 
| o| o 

See BES Total 


SLOTS FILLIS, NAPS 二 ol 3, 955 
J comers eme [ofl 
Data-local map tasks| o| l 


Nap Completion Graph - close 


图 8-5 ”页 面 浏览 执行 中 的 任务 
6) 运行 完毕 后 ， 打 开 result 文件 ， 点 击 part-r-00000 ， 就 可 以 看 到 输出 的 数据 ， 如 图 
8-8 和 图 8-9 所 示 。 


Hadoop map task list for job 201303250301 0010 on master 


All Tasks 


This is Apache Hadoop release 1.0.1 


图 8-6 页面 浏览 执行 中 的 任务 分 配 


Job job 201303250301 0010 


All Task Attempts 


Task | mas | aene | m m— settee | Time muanm | Time 


100.00% L, DD ep 29- 三 月 -2013 01:14:55 


Input Split Locations 


[defaut t-rack/slave? 


| /aefoul t-rack/slavel 


Go back to the job 
Go back to [obIracker 


This is Apache Hadoop release 1.0.1 


图 8-7 ”任务 详情 


Contents of directory /experiment/dedup/result 


Goto : perimenL dedupwresull 


Local ics 
Log directory 


This is Apache Hadoop release 1.0.1 


图 8-8 查看 输出 数据 


EET 
Camel TES il this fil 
Chunk size to view (in bytes, up to file s DFS block size): 


Total mmber of blocks: 1 
-H925127324055411115: 192.168. 0.102:50010 192. 168.0. 103:50010 


Go back to DFS home 


Toral loose 


图 8-9 ”查看 输出 数据 内 容 
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7) 进行 核对 ， 发 现 已 经 去 重 成 功 。 


8.2 数据 排序 实验 


8.2.1 实验 目的 


“数据 排序 ”是 许多 实际 任务 执行 时 要 完成 的 第 一 项 工作 ， 比 如 学 生成 绩 评 比 、 数 据 
建立 索引 等 。 这 个 实例 和 数据 去 重 类 似 ， 都 是 先 对 原始 数据 进行 初步 处 理 ， 为 进一步 的 数据 
操作 打 好 基础 。 下 面 进 入 这 个 实例 。 

8.2.2 实验 设备 


1) 硬件 : 云 计 算 一 体 机 、PC。 
2) 软件 : SecureCRT, 


8.2.3 实验 内 容 


1. 实例 描述 

对 输入 文件 中 的 数据 进行 排序 。 输 入 文件 中 的 每 行内 容 均 为 一 个 数字 ， 即 一 个 数据 。 要 
求 在 输出 中 每 行 有 两 个 间隔 的 数字 ， 其 中 ， 第 一 个 代表 原始 数据 在 原始 数据 集中 的 位 次 ， 第 
二 个 代表 原始 数据 。 

2. 样 例 输入 

1) 文件 一 ， 如 图 8-10 所 示 。 


File: /exneriment/sort/filel. txt 


(go | 


Go dack to dir listing 
Advanced view/downlond options 


图 8-10 查看 样 例文 件 一 
2) 文件 二 : 如 图 8-11 Pra. 
3) 文件 三 : WIA 8-12 所 示 。 


8.2.4 ”实验 原理 


1. 设计 思路 
这 个 实例 仅仅 要 求 对 输入 数据 进行 排序 ， 熟 悉 MapReduce 过 程 的 读者 会 很 快 想到 在 Ma- 
pReduce 过 程 中 就 有 排序 ， 是 否 可 以 利用 这 个 默认 的 排序 ， 而 不 需要 自己 再 实现 具体 的 排序 
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File: /experiment/sort/file2. txt 


Goto : |experiment/sort [kgo] 


fo dack to dir listing 
Advanced view/download options 


Chunk size to view (in bytes, up to file's DFS block size): (32768 


Al 8-11 查看 样 例文 件 二 


File: /experiment/sort/file3. txt 
| Gota : ['oxporimentison [ge] 


Go back to gir listing 


Advanced view/doemload options 


图 8-12 ”查看 样 例文 件 三 


呢 ? 答案 是 肯定 的 。 

但 是 在 使 用 之 前 首先 需要 了 解 它 的 默认 排序 规则 。 它 是 按照 key 值 进 行 排序 的 ， 如 采 
key 为 封装 int 的 IntWritable 类 型 ， 那 么 MapReduce 按照 数字 大 小 对 key HEF, WR key 为 
封装 为 String 的 Text 类 型 JPA MapReduce 按照 字典 顺序 对 字符 串 排 序 。 

了 解 了 这 个 细 市 ， 我 们 就 知道 了 应 该 使 用 封装 int 的 IntWritable 型 数据 结构 。 也 就 是 在 
map 中 将 读 入 的 数据 转化 成 IntWritable 型 ， 然 后 作为 key 值 输出 (value 任意 ) reduce 拿 到 
<key, value-list > 之 后 ， 将 输入 的 key 作为 value 输出 ， 并 根据 value-list 中 元 素 的 个 数 决 定 
输出 的 次 数 。 输 出 的 key( 即 代码 中 的 linenum ) 是 一 个 全 局 变量 ， 它 统计 当前 key 的 位 次 。 
需要 注意 的 是 这 个 程序 中 没有 配置 Combiner， 也 就 是 在 MapReduce 过 程 中 不 使 用 Combiner, 
这 主要 是 因为 使 用 map 和 reduce 就 已 经 能 够 完成 任务 了 。 

2. 程序 源码 


import java. io. IOException ; 


import org. apache. hadoop. conf. Configuration ; 


import org. apache. hadoop. fs. FileSystem ; 


import org. 
import org. 
import org. 
import org. 
import org. 
import org. 
import org. 


import org. 


apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 


apache. 


public class Sort | 


hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 


A 第 8 章 
fs. Path; 
io. IntWritable ; 
io. Text; 
mapreduce. Job; 
mapreduce. Mapper; 
mapreduce. Reducer; 
mapreduce. lib. input. FileInputFormat ; 


mapreduce. lib. output. FileOutputFormat ; 


//map 将 输入 中 的 value 化 成 IntWritable 类 型 ,作为 输出 的 key 


public static class Map extends 


Mapper < Object, Text, IntWritable, IntWritable > | 


private static IntWritable data = new IntWritable( ) ; 


// 39 map 函数 


public void map( Object key , Text value , Context context) 


throws IOException, InterruptedException | 


String line = value. toString( ) ; 
if( line! =null&&! ". equals( line) ) | 
data. set( Integer. parselInt( line) ) ; 


context. write( data, new IntWritable( 1) ) ; 


/ / reduce 将 输入 中 的 key 复制 到 输出 数据 的 key E, 


// 然 后 根据 输入 的 value - list PICK HJ ALD E key 的 输出 次 数 


// 用 全 局 linenum 来 代表 key 的 位 次 
public static class Reduce extends 


Reducer < IntWritable , IntWritable , IntWritable , IntWritable > | 


MapReduce 实践 A 


private static IntWritable linenum = new IntWritable( 1) ; 


// 实 现 reduce KIXI 
public void reduce( IntWritable key , Iterable < IntWritable > values, 
Context context) throws IOException, InterruptedException | 
for( IntWritable val: values ) | 


context. write( linenum ,key ) ; 
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linenum = new IntWritable( linenum. get( ) +1) ; 


public static void main( String| | args) throws Exception | 
if( args. length! 22) | 
System. err. println(" Usage: Data Deduplication < in > < out >"); 
System. exit(2) ; 
| 
Configuration conf = new Configuration( ) ; 
FileSystem fs = FileSystem. get( conf) ; 
Path result = new Path( args| 1 | ) ; 
if( fs. exists ( result) ) | 
fs. delete (result, true ) ; 
| 
Job job = new Job( conf, " Data Sort") ; 
job. setJarByClass ( Sort. class ) ; 


// 设 置 Map 和 Reduce 人 处理 类 
job. setMapperClass( Map. class ) ; 
job. setReducerClass ( Reduce. class ) ; 


// 设 置 输出 类 型 
job. setOutputKeyClass( IntWritable. class ) ; 
job. setOutputValueClass ( IntWritable. class) ; 


// 设 置 输入 和 输出 目录 

FileInputFormat. addInputPath( job, new Path( args[ 0 | ) ) ; 
FileOutputFormat. setOutputPath( job, result) ; 

System. exit( job. waitForCompletion( true)? 0:1) ; 


| 
8.2.5 实验 步骤 


1) 首 完 在 文件 夹 /experiment/sort/ 下 上 传 三 个 实例 文件 ， 并 有 旦 创建 一 个 空 文件 ， 为 了 一 
会 儿 存放 输出 数据 ， 如 图 8-13 所 示 。 

2) 然后 执行 程序 hadoop jar exp. jar Sort /experiment/sort /experiment/sort/result, 4E W H 
下 查看 进度 ， 如 图 8-14 和 图 8-15 所 示 。 
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Contents of directory /experiment/ sort 


Local logs 
Log directory 
This is Apache Hadoop release 1.0.1 


图 8-13 ”创建 文件 夹 


Running Jobs 


User Map 第 Tap Reduce Reduce Reduces i is E 
Complete Total oh pepe RE Total Completed 


ek kh Bel e —R— 


图 8-14 查看 正在 运行 的 任务 


Hadoop job 201303250301 0011 on master 


User: hadoop 
Job Name : bees no 


Subni t NY master 

Submit Host Address: 132.165.0.101 
Job-ACLs: Al] users are allowed 

Job Setup: Successful 

Status: Running 

Started at: Mon Mar 25 04:48:08 CST 2013 
Running for: &sec 

Job Cleanup: Pending 


at Balled Led 
ts 


no 


ob Counters || Launched map tasks | 


eal ale 
J 


图 8-15 查看 任务 进度 
3) 可 以 看 到 任务 分 配给 谁 去 执行 ， 如 图 8-16 ~ 图 8-18 所 示 。 


Hadoop map task list for job 201303250301 0011 on master 


All Tasks 


Go back to TobTracker 
This is Apache Hadoop release 1.0.1 


图 8-16 ”查看 任务 分 配 
4) 完成 后 可 以 看 到 前 面 是 序号 ， 后面 是 数据 ,已 经 排序 成 功 ， 如 图 8-19 所 示 。 
5) 点 击 part-r-00000 看 数据 ， 如 图 8-20 fra. 


Job job_201303250301 0011 


All Task Attempts 


| Task Attempts Kachine Status Frogress m Time Finish Time terore | 


Task 
Logs 
= = Last JKE 
fdefeult= 100. 00 28-— FH -2013 29- 三 月 -2013 01:18:23 
attemet_201 303250301_0011_m_000000_0 SE ^s] EID Em Lea BKE is 


Input Split Locations 


/default-rack/slavez2 
| rdefault—rack/slavel 


Go back to the job 
Go back to InbIrachzr 


This is Apache Hadoop release 1.0.1 


图 8-17 查看 任务 详情 一 


Job job_201303250301 0011 


All Task Attempts 


| mm | le: 00& | 29- 三 月 -2013 29- 三 月 -2013 01:18:32 Last dh 
attenpt 201303250301 0011 m 000001 0 "re ^ SUCCEEDED Bessa | 01 «18-28 (3sec) m ast BKB ||15 


Input Split Locations 


/default-rack/slave2 
/default-rack/slavel 


Go back to the job 
Go back to InbIracker 


This is Apache Hadoop release 1.0.1 


图 8-18 查看 任务 详情 二 


Contents of directory /experiment/sort/result 


Goto: [E 


Local logs 
Log directory 


This is Apache Hadoop release 1.0.1 


图 8-19 ”查看 输出 结果 文件 


File: /experiment/sort/result/part-r-00000 - 


Goto : BE 


CU Cm —4 —3 4 —4 —3 Com cm eB G8 MP d RO PO Ie 


ro 一 
Ob ma 


Chunk size to view (in bytes, up to file s DFS block size): 32768 | [ed 


图 8-20 ”查看 输出 结果 文件 内 容 
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8.3 平均 成 绩 实 验 


8.3.1 实验 目的 


“平均 成 绩 ” 主要 目的 还 是 在 重 温 经 典 的 “WordCount” 人 例子 ， 可 以 说 是 在 此 基础 上 的 
微 变化 版 ， 该 实例 主要 就 是 实现 一 个 计算 学 生平 均 成 绩 的 例子 。 


8.3.2 实验 设备 


1) 硬件 : 云 计 算 一 体 机 、PC 。 
2) 软件 : SecureCRT, 


8.3.3 实验 内 容 

对 输入 文件 中 的 数据 进行 计算 ， 得 出 学 生 的 平均 成 绩 。 输 入 文件 中 的 每 行内 容 均 为 
一 个 学 生 的 姓名 和 他 相应 的 成 绩 ， 如 果 有 多 门 学 科 ， 则 每 门 学 科 为 一 个 文件 。 要 求 在 
输出 中 每 行 有 两 个 间隔 的 数据 ， 其 中 ， 第 一 个 代表 学 生 的 姓名 ,第 二 个 代表 其 平均 


成 绩 。 

1. 样本 输入 
1) 效 学 : 

张 三 88 
从 四 99 
ER 66 
赵 六 77 
2) 语文 : 

3k — 78 
从 四 89 
ER 96 
赵 六 67 
3 ) A8. 

ge 80 
从 四 82 
干 五 84 
赵 六 86 
2. 样本 输出 
uk 82 
从 四 90 
EA 82 
赵 六 76 
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8.3.4 实验 原理 


1. 设计 思路 

计算 学 生平 均 成 绩 是 一 个 仿 “WordCount” 例 和子， 用 来 重 温 一 下 开发 MapReduce 程序 的 流 
程 。 程 序 包括 两 部 分 的 内 容 : Map 部 分 和 Reduce 部 分 ， 分 别 实现 了 map 和 reduce 的 功能 。 

Map 处 理 的 是 一 个 纯 文本 文件 ， 文 件 中 存放 的 数据 是 每 一 行 表 示 一 个 学 生 的 姓名 和 他 相 
应 的 一 科 成 绩 。Mapper 处 理 的 数据 是 由 InputFormat 分 解 过 的 数据 集 ， 其 中 InputFormat 的 作 
用 是 将 数据 集 切 割 成 小 数据 集 InputSplit， 每 一 个 InputSlit 将 由 一 个 Mapper 负责 处 理 。 此 外 ， 
InputFormat 中 还 提供 了 一 个 RecordReader 的 实现 ， 并 将 一 个 InputSplit 解析 成 <key, value > 
对 提供 给 了 map PRAY InputFormat 的 默认 值 是 TextInputFormat , 它 针 对 文本 文件 ， 按 行将 文 
本 切割 成 InputSlit， 并 用 LineRecordReader 将 InputSplit 解析 成 «key, value > 对 ，key 是 行 在 
文本 中 的 位 置 ，value 是 文件 中 的 一 行 。 

Map 的 结果 会 通过 partion 分 发 到 Reducer，Reducer 做 完 Reduce 操作 后 ， 将 通过 以 格式 
OutputFormat 输出 。 

Mapper 最 终 处 理 的 结果 < key, value > 对 ， 会 送 到 Reducer 中 进行 合并 ,合并 的 时 候 ， 
有 相同 key 的 键 / 值 对 则 送 到 同一 个 Reducer 上 。Reducer 是 所 有 用 户 定 制 Reducer 类 的 基础 ， 
它 的 输入 是 key 和 这 个 key 对 应 的 所 有 value 的 一 个 迭代 器 ， 同 时 还 有 Reducer 的 上 下 文 。 
Reduce 的 结果 由 Reducer. Context 的 write 方法 输出 到 文件 中 。 

2. 程序 源码 


import java. io. IOException ; 


import java. util. Iterator; 
import java. util. StringTokenizer ; 
hadoop. conf. Configuration ; 


import org. apache. 
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import org. 
import org. 
import org. 
import org. 
import org. 
import org. 
import org. 
import org. 
import org. 
import org. 
import org. 


import org. 


apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 


apache. 


publie class Score 


hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 


一 人 一 


fs. FileSystem ; 


fs. Path; 


io. IntWritable ; 


io. LongWritable ; 


io. Text; 


mapreduce. Job; 


mapreduce. Mapper; 


mapreduce. Reducer; 


mapreduce. 
mapreduce. 
mapreduce. 


mapreduce. 


] 
] 
] 
] 


ib. 
ib. 
ib. 
ib. 


input. FileInputFormat ; 
input. TextInputFormat ; 
output. FileOutputFormat ; 
output. TextOutputFormat ; 
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public static class Map extends 
Mapper < LongWritable, Text, Text, IntWritable > | 
// 实 现 map PRA 
public void map( LongWritable key, Text value, Context context ) 
throws IOException, InterruptedException | 
// 将 输入 的 纯 文 本 文件 的 数据 转化 成 String 
String line = value. toString( ) ; 
// 将 输入 的 数据 首先 按 行进 行 分 割 
StringTokenizer tokenizerArticle = new StringTokenizer( line, "\n") ; 
// 分 别 对 每 一 行进 行 处 理 
while( tokenizerArticle. hasMoreElements( ) ) | 
// 每 行 按 空格 划分 


StringTokenizer tokenizerLine = new StringTokenizer( 


tokenizerArticle. nextToken( ) ) ; 
String strName = tokenizerLine. nextToken( ) ;// 学 生 姓 名 部 分 
String strScore = tokenizerLine. nextToken( ) ;// 成 绩 部 分 
Text name = new Text( strName ) ; 
int scoreInt = Integer. parseInt( strScore ) ; 
// 输 出 姓名 和 成 绩 


context. write( name, new IntWritable( scoreInt ) ; 


publie static class Reduce extends 
Reducer < Text, IntWritable, Text, IntWritable > | 
// 3: Hil reduce PAŽI 
public void reduce( Text key, Iterable < IntWritable > values, 
Context context) throws IOException, InterruptedException | 
int sum - 0; 
int count 20; 
Iterator < IntWritable > iterator = values. iterator( ) ; 
while( iterator. hasNext( ) ) | 
sum + = iterator. next( ). get( ) ;// 计 算 总 分 
count + + ;人 7/ 统计 总 的 科目 数 


int average = (int) sum/count ;// 1] 55-235] JN 2i 


context. write( key, new IntWritable( average) ) ; 
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public static void main( String| | args )throws Exception | 
Configuration conf = new Configuration( ) ; 
FileSystem fs = FileSystem. get( conf) ; 
Path result = new Path( args| 1 | ) ; 
if( fs. exists ( result) ) | 
fs. delete( result, true) ; 
| 
if( args. length! =2) | 
System. err. println(" Usage: Score Average <in > <out>") ; 
System. exit(2) ; 
| 
Job job = new Job( conf, "Score Average ") ; 
job. setJarByClass ( Score. class ) ; 
// Y & Map Combine 和 Reduce 处 理 类 
job. setMapperClass ( Map. class) ; 
job. setCombinerClass ( Reduce. class ) ; 
job. setReducerClass ( Reduce. class ) ; 
// 设 置 输出 类 型 
job. setOutputKeyClass( Text. class) ; 
job. setOutputValueClass ( IntWritable. class) ; 


// 将 输入 的 数据 集 分 割 成 小 数据 块 splites ,提供 一 个 RecordReder 的 实现 
job. setInputFormatClass( TextInputFormat. class ) ; 

// 提 供 一 个 RecordWriter 的 实现 ,负责 数据 输出 

job. setOutputFormatClass ( TextOutputFormat. class) ; 

// 设 置 输入 和 输出 目录 

FileInputFormat. addInputPath( job, new Path( args| 0 | ) ) ; 
FileOutputFormat. setOutputPath( job, result) ; 

System. exit( job. waitForCompletion( true)? 0:1) ; 


| 
8.3.5 实验 步骤 


1) 首先 把 数据 上 传 到 /experiment/score/ 文件 夹 下 i 并 创建 一 个 空 文件 为 了 存放 输出 的 
数据 ， 如 图 8-21 所 示 。 
2) 然后 执行 程序 hadoop jar exp. jar Score /experiment/score /experiment/score/result， 在 
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Contents of directory /experiment/ score 


Local logs 
Lag directory 


This is Apache Hadosp release 1.0.1 


图 8-21 创建 文件 来 
页 面 下 看 程序 的 运行 进度 ， 如 图 8-22 和 图 8-23 所 示 。 


Running Jobs 


Tobid Priorit np % Reduce 4 Reduce Reduces Job Scheduling Forum 
y Complete La etd Complete Total Completed Information 
Score 


Camal atad Taha 


图 8-22 ”查看 正在 运行 的 任务 
Hadoop job 201303250301 0012 on master 


User: hadoop 

Job Name: Score plis. 

Job File: hd: sr: g100/hez 
Submit Host = DATE 

Submit Host Address: 132.168.0.101 
Job-ACLs: All users are allowed 


| Kind |% Complete | Num Tasks | Pending | Running | Complete ee - T 
Orn- -RE 
ae el 站 中 po oo [o o 


Job Counters 


Launched map tasks 0 


Data-local map tasks 0 D 0 


File Input Format Counters a el Read 0 84 


|HUFS BETES READ — | BYTES READ 306 
FileSystenCounters ood 
FILE BYTES WRITTEN 43, 626 | 0 | 43, 626 


ea output materialized bytes LL 116 


eae cre t input records 1 ol s| 


图 8-23 ”查看 任务 进程 
3) 完成 后 查看 输出 结果 ， 已 经 得 到 平均 成 绩 ， 实 验 成 功 ， 如 图 8-24 和 图 8-25 所 示 。 


| Contents of directory /experiment/score/result 


Goto : Jexperiment/ecore/reeult Ir 


Go back ta DFS home 


Local logs 
Log directory 


This is foache Hadoop release 1.0.1 


K| 8-24 查看 输出 文件 


File: /experiment/score/result/part-r-00000 
Goto : Jexperiment/score/result god 


fo dock to dir listing 
Advanced vicem; domload options 


图 8-25 ”查看 输出 文件 内 容 


8.4 单 表 关联 实验 


8.4.1 实验 目的 

前 面 的 实例 都 是 在 数据 上 进行 一 些 简单 的 处 理 ， 为 进一步 的 操作 打 基 础 。“ 单 表 关 联 ” 
这 个 实例 要 求 从 给 出 的 数据 中 寻找 所 关心 的 数据 ， 它 是 对 原始 数据 所 包含 信息 的 控 据 。 下 面 
进入 这 个 实例 。 


8.4.2 实验 设备 


1) 人 硬件. 云 计 算 一 体 机 、PC。 
2) 软件 : SecureCRT, 


8.4.3 实验 内 容 
实例 中 给 出 child-parent (孩子 一 父母 ) 表 ， 要 求 输出 grandchild-grandparent ( 孙子 一 和 爷 


35) # 
样 例 输入 如 下 所 示 : 
文件 : 
child parent 
Tom Lucy 
Tom Jack 
Jone Lucy 
Jone Jack 
Lucy Mary 
Lucy Ben 
Jack Alice 
Jack Jesse 


Terry 
Terry 
Philip 
Philip 
Mark 
Mark 


Alice 

Jesse 
Terry 
Alma 


Terry 
Alma 
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家 族 树 状 关系 谱 如 图 8-26 所 示 。 


FH 

父母 

孩子 

图 8-26 ”家 族 关 系谱 

样 例 输出 如 下 所 示 : 
文件 : 
grandchild grandparent 
Tom Alice 
Tom Jesse 
Jone Alice 
Jone Jesse 
Tom Mary 
Tom Ben 
Jone Mary 
Jone Ben 
Philip Alice 
Philip Jesse 
Mark Alice 
Mark Jesse 


8.4.4 实验 原理 


1. 设计 思路 

分 析 这 个 实例 ， 显 然 需要 进行 单 表 连接 ， 连 接 的 是 左 表 的 parent 列 和 右 表 的 child 列 ， 
且 左 表 和 右 表 是 同一 个 表 。 

连接 结 末 中 除去 连接 的 两 列 就 是 所 需要 的 结 末 一 一 “5randchild--grandparent” 表 。 要 用 
MapReduce 解决 这 个 实例 ; 首先 应 该 考虑 如 何 实现 表 的 月 连接 ; 其 次 就 是 连接 列 的 设置 ; HY 
后 是 结 琳 的 整理 。 
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考虑 到 MapReduce 的 shuffle 过 程 会 将 相同 的 key 会 连接 在 一 起 ， 所 以 可 以 将 map 结果 
的 key 设置 成 得 连接 的 列 ， 人 然后 列 中 相同 的 值 就 目 然 会 连接 在 一 起 了 。 再 与 最 开始 的 分 析 联 
系 起 来 。 

要 连接 的 是 左 表 的 parent 列 和 右 表 的 child 列 ， 且 左 表 和 右 表 是 同一 个 表 ， 所 以 
在 map 阶段 将 读 入 数据 分 割 成 child 和 parent 之 后 ， 会 将 parent 设置 成 key, child 设 
置 成 value 输出 ， 并 作为 左 表 ; 再 将 同一 对 child 和 parent 中 的 child 设置 成 key, par- 
ent 设置 成 value 进行 输出 ， 作 为 右 表 。 为 了 区 分 输出 中 的 左 、 右 表 ， 需 要 在 输出 的 
value 中 再 加 上 左右 表 的 信息 ， 比 如 在 value 的 String 最 开始 处 加 上 字符 1 XR ZEE, 
加 上 字符 2 表示 右 表 。 这 样 在 map WAR PMI MT ARMA RK, Ala TE shuffle 过 
程 中 完成 连接 。reduce 接收 到 连接 的 结果 ， 其 中 每 个 key HJ value-list 就 包含 了 
“grandchild--grandparent” 关系。 取出 每 个 key 的 value-list dt £T fg Br, KA PAY 
child 放 入 一 个 数组 ， 右 表 中 的 parent 放 和 一 个 数组 ， 然 后 对 两 个 数组 求 笛 卡尔 积 就 
是 最 后 的 结 采 了 。 

2. 程序 源码 


import java. io. IOException ; 


import java. util. * ; 


import org. 
import org. 
import org. 
import org. 
import org. 
import org. 
import org. 
import org. 


import org. 


apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 


apache. 


public classSTjoin 


hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 


—— 


conf. Configuration ; 


fs. FileSystem ; 


fs. Path; 


io. Text; 


mapreduce. 


mapreduce 
mapreduce 
mapreduce 


mapreduce 


public static int time =0; 


J sk 


Job; 
. Mapper; 


. Reducer; 


. lib. input. FileInputFormat ; 
. lib. output. FileOutputFormat ; 


x map 将 输出 分 割 child 和 parent, 然 后 正 序 输出 一 次 作为 右 表 , 反 序 输出 一 次 作为 
左 表 , 需 要 注意 的 是 在 输出 的 value 中 必须 加 上 左右 表 的 区 别 标 识 
7 
public static class Map extends Mapper < Object, Text, Text, Text > | 
// SI map PRA 
public void map( Object key, Text value, Context context ) 


throws IOException, InterruptedException | 
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String childname = new String( ) ;//1Z- T 44 ff 
String parentname = new String( ) ;// FEZ PR 
String relationtype = new String( ) ;// 7r RER 


// 输 入 的 一 行 预 处 理 文本 

StringTokenizer itr = new StringTokenizer( value. toString( ) ) ; 
String| | values = new String| 2 | ; 

int 1 20; 


while( itr. hasMoreTokens( ) ) | 


values] i | = itr. nextToken( ) ; 


i+ +; 


if( values| 0 |. compareTo(" child")! =0) | 
childname = values| 0 | ; 
parentname = values| 1 | ; 
// 输 出 左 表 
relationtype = 1 "; 
context. write( new Text( values| 1 | ) ,new Text( relationtype +" +" 

+ childname + + + parentname) ) ; 

// 输 出 右 表 
relationtype = 2 ; 
context. write( new Text( values] 0 | ) ,new Text( relationtype +" +" 


+ childname +" +" + parentname ) ) ; 


public static class Reduce extends Reducer < Text , Text , Text , Text > | 
//3E JW reduce PAZ 
public void reduce( Text key ,Iterable < Text > values, Context context) 
throws IOException, InterruptedException | 
// 输 出 表 头 
if(0 = =time) | 
context. write( new Text(" grandchild ") ,new Text( grandparent ") ) ; 
time + +; 


| 


int grandchildnum = 0 ; 
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String| | grandchild = new String| 10 | ; 
int grandparentnum = 0; 


String| | grandparent = new String| 10 | ; 


Iterator ite = values. iterator( ) ; 
while (ite. hasNext( ) ) | 
String record = ite. next( ). toString( ) ; 
int len = record. length( ) ; 
inti=2; 
if(0 = =len) | 


continue ; 


// WASTE ARER 

char relationtype = record. charAt(0) ; 
// ENTIRE E 
String childname = new String( ) ; 


String parentname = new String( ) ; 


//3 HL value - list 中 value 的 child 

while( record. charAt(i)! ='+') | 
childname + = record. charAt(i) ; 
it +; 

| 

1-141; 

// 获 取 value - list 中 value HJ parent 

while( i « len) | 
parentname + = record. charAt(i) ; 


it +; 


// 左 表 , 取 出 child 放 入 grandchildren 
if('1'= =relationtype ) | 
erandchild| grandchildnum | = childname; 


grandchildnum + + ; 


| 
// 右 表 , 取 出 parent WA grandparent 
if('2'- =relationtype ) | 


erandparent| erandparentnum | = parentname ; 
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grandparentnum + + ; 


// grandchild 和 grandparent 数组 求 俏 卡尔 积 
if(0! =grandchildnum&&0! = grandparentnum ) | 
for(int m 20;m < grandchildnum ; m + + ) | 
for(int n 20;n <grandparentnum;n + + ) | 
ZA n 
context. write( new Text( grandchild[ m | ) ,new Text( 


erandparent| n | ) ) ; 


publie static void main( String| | args) throws Exception | 

Configuration conf = new Configuration( ) ; 

FileSystem fs = FileSystem. get( conf) ; 

Path result = new Path( args| 1 | ) ; 

if( fs. exists ( result) ) | 
fs. delete( result, true) ; 

| 

if( args. length! =2) | 
System. err. printIn(" Usage: Single Table Join « in > «out >"); 
System. exit(2) ; 


Job job 2 new Job( conf," Single Table Join ") ; 
job. setJarByClass ( STjoin. class) ; 


//ix & Map 和 Reduce 处 理 类 
job. setMapperClass ( Map. class) ; 
job. setReducerClass ( Reduce. class) ; 


// 设 置 输出 类 型 
job. setOutputKeyClass ( Text. class) ; 
job. setOutputValueClass ( Text. class) ; 
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// 设 置 输入 和 输出 目录 

FileInputFormat. addInputPath( job, new Path( args| 0 | ) ) ; 
FileOutputFormat. setOutputPath( job, result) ; 

System. exit( job. waitForCompletion( true)? 0:1) ; 


| 
8.4.5 ”实验 步骤 


1. 代码 结果 

1) 首先 上 传 事例 文件 到 /experiment/st. join/ 文 件 夹 下 ， 并 且 创 建 一 个 空 文件 ,方便 存 
放 输 出 数据 。 

2) 运行 程序 hadoop jar exp. jar STjoin /experiment/stjoin /experiment/stjoin/result， 在 页 


面 看 到 进度 ， 如 图 8-27 和 图 8-28 所 示 。 


Hadoop job 201303250301 0014 on master 


Job File: | p/tmnp/mapred/staging/hadoop/. staging‘ job 201305250301 O0L4/iob. xml 


S 人 
Submit Host Address: 192 169, 0. 101 
Job-ACLs: All users are allowed 
Job Se etup: 
Status: Running 
Start ed at: Var om Kar 25 04:57:20 CST 2013 
Running for: 3sec 
Job Cleanup: Pending 


z ES 
Kind |% Complete | Num Tasks. Pending | Running | Complete | Killed Task J 
NET a 
D. Oo% | 
mae el a | [o 
Counter Hap | Reduce | Total 
SLOTS MILLIS MAPS 0 0| 3, 953 
Job Counterz 


Launched map tasks | of ol 1 
Data-local map tasks | 0| 0 1 


Nap Completion Graph - cloge - 


图 8-27 查看 运行 任务 


Running Jobs 


Jobid Priorit Bap % Reduce *5i Reduce Reduces Job Scheduling Diagnostic 
y Complete a E Complete Total Completed Information Info 


站 mm ntad Taho 


图 8-28 查看 任务 进度 
运行 详解 
(1) map 处 理 
map PAZIN th Zr RAE] 8-29 TAR 
(2) shuffle 处 理 
在 shuffle 过 程 中 完成 连接 ， 见 表 8-1 ~ 表 83, 
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child ole LEAT + 

Tome <Lucy: 1-Tom-Lucy-e- 
<Tom: 2-Tom-Lucy--4 

Tome «Jack: 1+TomrJack>e 


<Tom: 2-Tom-Jack-- 


Jone <Lucy: 1+Jone+Lucy>+ 


2+JonetLucy>+ 
Jone Jack: 1+Jone+Jack> 
<Jone: 2+Jonet+Jack>e 
Lucy zMary: 1+Lucy+Mary>+ 
<Lucy: 2+Lucy+Mary> 
Lucy zBen: l-Lucy-Ben-- 
«Lucy: 2+Lucy+Ben>! 
Jacke <Alice: 1+Jack+Alce>+ 
“Jack: 2+Jack+Alce>+! 
Jacke <Jesse: 1+Jack+Jesse>« 
“Jack: 2+Jack+Jesse>e 
Terry+ “Alice: l+Temy+tAlice>+ 
«Tery: 2+Temyt+Alice> 
Tenye «Jesse: 1+TemytJesse>- 
<Temy: 2-Temy-Jesse—e 
Philip+' <Temy: 1-Phihp-Temy-- 
«Philip: 2-Phihp-Temy-- 
Philip <Alma: 1i-Phihp-Alma-- 
zPhihp: 2-Phihp-Alma-- 
Mark «Tery: 1+Mark+Teny>' 
<Mark: 2+Mark+Teny>+ 
Marke <Alma: 1+Mark+Alma> 
<Mark: 2+Mark+Alma> 


图 8-29 map 函数 输出 结 
表 8-1 shuffle 连接 


map 函数 输出 排序 结 shuffle 连接 


< Lucy, 1 + Tom + Lucy > < Alice, 1 + Jack + Alice > < Alice, 1 + Jack + Alice, 
< Tom, 2 + Tom + Lucy > < Alice, 1 + Terry + Alice > 1 + Terry + Alice , 
< Jack, 1 + Tom + Jack > < Alma, 1 + Philip + Alma > 1 + Philip + Alma, 
<Tom, 2 + Tom + Jack > < Alma, 1 + Mark + Alma > 1 + Mark + Alma > 
< Lucy, 1 + Jone + Lucy > < Ben, 1 + Lucy + Ben > < Ben, 1 + Lucy + Ben > 


< Jone, 2 + Jone + Lucy > < Jack, 1 + Tom + Jack > < Jack, 1 + Tom + Jack, 


表 8-2 无 效 及 有 效 的 shuffle 连接 
无 效 的 shuffle 连接 有 效 的 shuffle 连接 


< Alice, 1 + Jack + Alice, 
1 + Terry + Alice , < Jack, 1 + Tom + Jack, 
1 + Philip + Alma, 1 + Jone + Jack, 
1 + Mark + Alma > 
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无 效 的 shuffle 连接 有 效 的 shuffle 连接 


< Ben, 1 + Lucy + Ben > 

2 + Jack + Alice, 
< Jesse, 1 + Jack + Jesse, 

2 + Jack + Jesse > 
1 + Terry + Jesse > 
< Lucy, 1 + Tom + Lucy, 

< Jone, 2 + Jone + Lucy, 

1 + Jone + Lucy, 

2 + Jone + Jack > 
2 + Lucy + Mary, 


< Mary, 1 + Lucy + Mary, 
iu d " 2 + Lucy + Ben > 


2 + Mark + Terry, 


< Terry, 2 + Terry + Alice, 
2 + Mark + Alma > zu zt 


2 + Terry + Jesse, 
< Philip, 2 + Philip + Terry, 


1 + Philip + Terry, 
2 + Philip + Alma > 


1 + Mark + Terry > 
< Tom, 2 + Tom + Lucy, 


2 + Tom + Jack > 


< Jack, 1 + Jone + Jack > 
< Jone, 2 + Jone + Jack > 
< Mary, 1 + Lucy + Mary > 
< Lucy, 2 + Lucy + Mary > 
< Ben, 1 + Lucy + Ben > 
< Lucy, 2 + Lucy + Ben > 
< Alice, 1 + Jack + Alice > 
< Jack, 2 + Jack + Alice > 
< Jesse, 1 + Jack + Jesse > 
< Jack, 2 + Jack + Jesse > 
< Alice, 1 + Terry + Alice > 
< Terry, 2 + Terry + Alice > 
< Jesse, 1 + Terry + Jesse > 
< Terry, 2 + Terry + Jesse > 
< Terry, 1 + Philip + Terry > 
< Philip, 2 + Philip + Terry > 
< Alma, 1 + Philip + Alma > 
< Philip, 2 + Philip + Alma > 
< Terry, 1 + Mark + Terry > 
< Mark, 2 + Mark + Terry > 
< Alma, 1 + Mark + Alma > 
< Mark, 2 + Mark + Alma > 


(3) Reduce 处 理 


X 8-3 shuffle 连接 过 程 


< Jack, 1 + Jone + Jack > 
< Jack, 2 + Jack + Alice > 
« Jack, 2 + Jack + Jesse > 
< Jesse, 1 + Jack + Jesse > 
< Jesse, 1 + Terry + Jesse > 
< Jone, 2 + Jone + Lucy > 
< Jone, 2 + Jone + Jack > 
< Lucy, 1 + Tom + Lucy > 
< Lucy, 1 + Jone + Lucy > 
< Lucy, 2 + Lucy + Mary > 
< Lucy, 2 + Lucy + Ben > 
< Mary, 1 + Lucy + Mary > 
< Mark, 2 + Mark + Terry > 
< Mark, 2 + Mark + Alma > 
< Philip, 2 + Philip + Terry > 
< Philip, 2 + Philip + Alma > 
< Terry, 2 + Terry + Alice > 
< Terry, 2 + Terry + Jesse > 
< Terry, 1 + Philip + Terry > 
< Terry, 1 + Mark + Terry > 
< Tom, 2 + Tom + Lucy > 


<Tom, 2 + Tom + Jack > 


1 + Jone + Jack, 
2 + Jack + Alice, 
2 + Jack + Jesse > 
< Jesse, 1 + Jack + Jesse, 
1 + Terry + Jesse > 
< Jone, 2 + Jone + Lucy, 
2 + Jone + Jack > 
< Lucy, 1 + Tom + Lucy, 
1 + Jone + Lucy, 
2 + Lucy + Mary, 
2 + Lucy + Ben > 
< Mary, 1 + Lucy + Mary, 
2 + Mark + Terry, 
2 + Mark + Alma > 
< Philip, 2 + Philip + Terry, 
2 + Philip + Alma > 
< Terry, 2 + Terry + Alice, 
2 + Terry + Jesse, 
1 + Philip + Terry, 
1 + Mark + Terry > 
< Tom, 2 + Tom + Lucy, 


2 + Tom + Jack > 


首先 由 语句 “0 ! = grandchildnum && 0 ! = grandparentnum” 得 知 ， 只 要 在 “value- 
list” 中 没有 左 表 或 者 在 表 ， 则 不 会 做 处 理 ， 可 以 根据 这 条 规则 去 除 无 效 的 shuffle 连接 。 然 
后 根据 下 面 的 语句 进一步 对 有 效 的 shuffle 连接 做 处 理 . 
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// 左 表 , 取 出 child 放 入 grandchildren 
if('1'= =relationtype ) | 
erandchild| grandchildnum | = childname ; 


grandchildnum + + ; 


// 右 表 , 取 出 parent WA grandparent 
if('2'- =relationtype ) | 
erandparent[ erandparentnum | = parentname ; 


erandparentnum + + ; 


] 
针对 一 条 数据 进行 分 析 : 


« Jack, 1 + Tom + Jack, 
1 + Jone + Jack, 
2 + Jack + Alice, 
2+Jack + Jesse > 


分 析 结 采 ， 左 表 用 “字符 1” 表示 ， 右 表 用 “字符 2” 表示， 上 面 的 <key，value-list > 
PHJ “key? 表示 左 表 与 右 表 的 连接 键 。 而 “value-list” 表 示 以 “key” 连 接 的 左 表 与 右 表 的 
相关 数据 。 

根据 上 面 针 对 左 表 与 右 表 不 同 的 处 理 规则 ， 取 得 两 个 数组 的 数据 见 表 8-4。 

表 8-4 两 个 数组 的 数据 


grandchild Tom, Jone( grandchild| grandchildnum | = childname; ) 


grandparent Alice, Jesse( grandparent| grandparentnum | = parentname; ) 


然后 根据 下 面 的 语句 进行 处 理 : 


for(int m 20;m « grandchildnum ; m + + ) | 
for(int n 20; n « grandparentnum ;n + + ) | 
context. write( new Text( grandchild| m | ) , new 


Text ( grandparent| n | ) ) ; 


处 理 结果 如 图 8-30 所 示 。 

其 他 的 有 效 shuffle 连接 处 理 
都 是 如 此 。 最 后 输出 结果 和 正常 
关系 图 相符 ， 实 验 成 功 ， 如 图 
8-31 所 示 。 


图 8-30 ”处 理 结 
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图 8-31 查看 输出 结果 文件 


$9335 个 人 存储 私有 去 综合 实 训 


9.1 实验 目的 


1) 了 解 云 存 储 的 原理 。 
2) 掌握 云 存 储 的 核心 技术 。 


9.2 实验 设备 
硬件 ， 云 计算 一 体 机 、PC， 
9.3 实验 内 容 


1) 操作 存储 云 项 目 。 
2) 从 后 台 看 到 运行 过 程 。 


9.4 实验 原理 


L ER 
public classUploadFileServlet extends HttpServlet | 
private static final longserialVersionUID =1L; 
private static final Configuration conf = HadoopConfiguration 


. getConfiguration ( ) ; 


publicUploadFileServlet () | 


super (); 
|] 
/ * 
x 处 理 用 户 提 交 的 文件 ， 把 用 户 提交 的 文件 写 人 到 HDFS 中 
E A 


public void doPost ( HttpServletRequest request, HttpServletResponse response ) 
throws ServletException, IOException | 


// 设 置 request 编码 ， 主 要 是 为 了 处 理 普 通 输入 框 中 的 中 文 问 题 
request. setCharacterEncoding ("utf-8 ") ; 
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// 这 里 对 request 进行 封装 ， RequestContext 提供 了 对 request 多 个 访问 方法 
RequestContext requestContext = new ServletRequestContext (request) ; 
UserBean ub = (UserBean) request. getSession ( ) . getAttribute ("user"); 
if (ub= =null) | 
request. getRequestDispatcher ("/login. jsp") . forward (request, 
response ) ; 
| else | 
if (FileUpload. isMultipartContent (requestContext) ) | 
DiskFileltemFactory factory = new DiskFileItemFactory ( ) ; 
// 设 置 文件 的 缓存 路 径 
File temp = new File ("/hadoop/tomcat/temp/"); 
if (! temp. exists ()) | 
temp. mkdir ( ) ; 
| 
factory. setRepository (temp); 
ServletFileUpload upload = new ServletFileUpload (factory) ; 
// 设 置 上 传 文件 大 小 的 上 限 ，-1 表示 无 上 限 
upload. setSizeMax (1024 * 1024 * 1024) ; 
List <? > items =new ArrayList () ; 


try | 
[上 传 文件 ， 并 解析 出 所 有 的 表单 字段 ， 包 括 普通 字段 和 文件 字段 
items = upload. parseRequest (request) ; 


| catch (FileUploadException el) | 
System. out. prinln. ("文件 上 传 发 生 错 误 " + el. getMessage ()) ; 


| 
// 下 面 对 每 个 字段 进行 处 理 ， 分 普通 字段 和 文件 字段 
(); 


Iterator <? >it =items. iterator 
while (it. hasNext ()) | 
Fileltem fileltem = (Fileltem) it. next ( ) ; 
// 如 条 是 普通 字段 
if (fileltem. isFormField ()) | 
System. out. println ( fileltem. getFieldName ( ) 


"E 
+ fileltem. getName ( ) 
"E 
+ new String (fileltem. getString ( ) . getBytes ( 
"js08859-1 ") , "gbk ") ) ; 
| else | 


" 


System. out. println ( fileltem. getFieldName () +" 
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+fileltem. getName () +" " 
+ fileltem. isInMemory () +" T 
+ fileltem. getContentType () +" " 
+ fileltem. getSize ( ) ) ; 
[保存 文件 ， 其 实 就 是 把 绥 存 里 的 数据 写 到 目标 路 径 下 
if (fileltem. getName ()! -null 
&&fileltem. getSize ()! =0) | 
// File fullFile = new File (fileltem. getName ( )) ; 
String | | array =fileltem. getName () .split ("V \ V V); 


File newFile = new File ("/hadoop/tomcat/" 
+ array | array. length-1 | ) ; 
try | 
fileltem. write ( newFile) ; 
| catch (Exception e) | 
e. printStackTrace () ; 
| 
String dst ="/tomcat/users/"+ ub. getUserld ( ) 
t "/files/" + newFile. getName ( ) ; 
InputStream in = new BufferedInputStream ( 
new FileInputStream ( newFile) ) ; 
/开始 往 HDFS 中 写 入 文件 
FileSystem fs = FileSystem. get (conf) ; 
Path path = new Path (dst); 
if (fs. exists (path)) | 
if (newFile. exists ()) | 
newFile. delete ( ) ; 
| 
request. getRequestDispatcher ( 
"/error. jsp? result = 上 传 的 文件 已 存在 ! ") . forward ( 
request, response ) ; 
| else | 
OutputStream out = fs. create ( path, 
new Progressable () | 
public void progress () | 
//TODO Auto-generated method 
/ / stub 


System. out. println ("*") ; 
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IOUtils. copyBytes (in, out, 4096, true) ; 
IOUtils. closeStream (in) ; 
IOUtils. closeStream (out) ; 
// 3 ASN SR 
FileStatus stat =fs. getFileStatus (path) ; 
// 更 新 用 户 的 sesion 信息 
ub. setCloudSize (ub. getCloudSize ( ) 
-stat. getLen ( ) ) ; 
DerbyUtilCase. updateUserStatus (ub) ; 
if (newFile. exists ()) | 
newFile. delete ( ) ; 
| 
if (ub. getUserld () . equals ("admin") ) | 
request. getRequestDispatcher ("/unlimit. jsp ") 
. forward (request, response); 
| else | 
request. getRequestDispatcher ( "/limited. jsp ") 


. forward (request, response); 


| 


| else | 


System. out. println. ("path is null. ") ; 


| 

2. 下 载 文件 

public classDownloadFileServlet extends HttpServlet | 
private static final longserialVersionUID =1L; 


private static final Configuration conf = new Configuration ( ) ; 


7 * 
* 处 理 用 户 下 载 的 文件 请 求 ， 用 户 提 交 一 个 文件 名 称 ， 系 统 从 HDFS 读 取 该 文 
件 ， 然 后 传输 给 用 户 
A 
public voiddoGet ( HttpServletRequest request, HttpServletResponse response ) 
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throws ServletException, IOException | 
// 找 到 用 户 所 选 定 的 文件 
request. setCharacterEncoding ("utf-8 ") ; 
UserBean ub = (UserBean) request. getSession ( ) . getAttribute ("user"); 
if (ub = 2 null) | 
request. getRequestDispatcher ("/login. jsp") . forward (request, 
response ) ; 
| else | 
// 获 取 用 户 提 区 的 文件 名 称 
String uuidname = new String (request. getParameter ("filename ") 
. getBytes ("ISO-8859-1"), "UTF-8") ; 
File f = new File ("hadoop/tomcat/temp/" + uuidname ) ; 
String dst ="/tomcat/users/"+ ub. getUserld () +"/files/" 


+ uuidname ; 

/开始 从 HDFS 上 读 取 文件 
FileSystem fs = FileSystem. get (conf) ; 
InputStream hadopin = null; 
OutputStream bos = new BufferedOutputStream (new FileOutputStream (f) ) ; 
Path hdfsPath = new Path (dst); 
if (! fs. exists (hdfsPath)) | 

request. getRequestDispatcher ("/error. jsp? result 2 下 载 资 源 不 存在 ! ") 


. forward (request, response ) ; 


| else | 
try | 
hadopin = fs. open ( hdfsPath ) ; 
IOUtils. copyBytes (hadopin, bos, 4096, true) ; 
| finally | 
IOUtils. closeStream  ( hadopin ) ; 
bos. close () ; 
| 
// 读 取 文 件 结 
String realname = uuidname. substring (uuidname. indexOf ("_") +1) 
/开始 给 客户 端 传送 文件 
if (f. exists ()) | 
// Wt MES ER ARE A k 
response. setContentType ("application/x-msdownload ") ; 
String str =" attachment; filename =" 
+ java. net. URLEncoder. encode (realname, "utf-8") ; 


response. setHeader (" Content-Disposition ", str); 


152 


A RIF 个 人 存储 私有 云 综 合 实 训 A 


// 创 建 一 个 输入 流 对 象 和 指定 的 文件 相关 联 
FileInputStream in = new FileInputStream (f) ; 
// 从 response 对 象 中 获取 到 输出 流 对 象 
OutputStream out = response. getOutputStream ( ) ; 
// 从 输入 流 对 象 中 该 数据 写 人 到 输出 流 对 象 中 
byte | | buff =new byte | 1024 * 1024 | ; 
int len 20; 
while ( (len 2 in. read (buff) )) 0) | 
out. write (buff, O, len); 
f. delete (); 
in. close (); 
out. close ( ) ; 
| else | 
request. getRequestDispatcher ("/error. jsp? result = 下 载 资源 不 存在 ! ") 


. forward (request, response ) ; 


9.5 SER 


1) 首先 用 浏览 大 登录 云 平 台 http: //master; 8080/education, 
2) 然后 输入 账户 密码 登录 。 管 理 员 账户 admin, %45 admin， 其 他 用 户 使 用 前 需要 注 
Jr, Anf 9-1 所 示 。 


云 计算 实 训 项 目 


类 All: SBAA 


没有 帐号 9 请 注册 
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图 9-1 登录 界面 
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3) 登录 进去 后 可 以 看 到 五 个 实验 项 目 ， 如 图 9-2 ras. 


Es 


Doses H 


智能 EMS 速 递 云 微 信 关系 分 析 


图 9-2 项 目 界面 
4) 第 一 个 实验 项 目 : 个 人 私有 云 存 储 。 点 击 图 标 ， 进 入 之 后 会 是 一 个 操作 界面 ， 如 图 


9-3 所 示 。 
. 参 个 人 私有 存储 系统 
i zRHidE 
BE 0 8 日 记 标 题 : 


zxBES 
Hina: 
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图 9-3 新建 云 日 记 
5) 首先 使 用 新 建 日 记功 能 ， 输 入 一 个 标题 和 日 记 内 容 ， 如 图 9-4 所 示 。 然 后 点 击 上 传 ， 


会 出 现 操作 成 功 的 页 面 ， 如 图 9-5 所 示 。 
LA 个 人 私有 存储 系统 


P B 新建 云 日 记 
面 zormi 


日 记 标 题 : 2013-5-27 
t axe be 

小 ， 云 文件 下 载 日 记 内 容 : 你 好 ! | 

云 文件 预览 
而 EA 
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图 9-4 输入 日 记 内 容 
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操作 成 功 ! 


BT mi HDFSERET GE 
hafs master 8100 
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图 9-5 PERI 
6) 因为 使 用 的 管理 员 账 户 登 录 ， 所 以 可 以 直接 点 击 给 出 的 网 址 进入 到 后 台 查 看 。 
7) 跳 转 到 Hadoop 的 文件 浏览 器 ， 如 图 9-6 所 示 ， 其 他 账户 是 不 可 以 的 。 


Contents of directory / 


Local logs 


Log directory 


This is Apache Hadoop release 1.0.1 


图 9-6 页 面 浏览 文件 
8) 然后 可 以 通过 云 文件 预览 ， 数 据 在 notes 里 面 ， 如 图 9-7 所 示 。 


setae 


GS HATES 


B 新 建 云 日 记 
m 去 日记 删除 空间 剩余 : 10785782810 Bytes 

- TI 
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Dm a S 
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图 9-7 云 文 件 预先 文件 夹 
9) 在 这 里 面 可 以 看 到 已 经 存在 的 日 记 ， 如 图 9-8 所 示 。 
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图 9-8 云 文件 预览 文件 
10) 点 击 进 入 可 以 查看 内 容 ， 如 图 9-9 所 示 。 
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B 新 建 云 日 记 
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图 9-9 云 文 件 浏 览 内 容 
11) 上 传 成 功 之 后 ， 存 储 空间 都 会 相应 减少 ， 再 上 传 一 个 文件 ,测试 一 下 ， 如 图 9-10 所 示 。 
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图 9-10 ”编写 测试 日 记 内 容 
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12) 上 传 后 的 大 小 比 之 前 少 了 ， 如 图 9-11 所 示 。 
LÁ 个 人 私有 存储 系统 
B 新 建 云 日 记 


fi EEEN 空间 剩余 : 10785781310 Bytes 
bg 
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IName pelsize ReplicationlBlock SizelModification Time Permissio 
云 文件 上 传 Fizinote file boka2 b 
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= 2013-03-29-2.notefile 0.12 KB2 | 
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图 9-11 浏览 空间 剩余 


13) 之 后 使 用 第 二 个 功能 ， 删 除 刚才 测试 的 文件 ， 如 图 9-12 所 示 。 
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图 9-12 云 日 记 删 除 
14) 点 击 删 除 后 会 出 现 操 作成 功 的 界面 ， 如 图 9-13 所 示 。 


操作 成 功 ! 
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图 9-13 ”删除 成 功 
15) 可 以 看 到 目录 下 已 经 没有 之 前 的 文件 了 了 ， 如 图 9-14 Aras, 
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浏览 文件 夹 


图 9-14 
刚才 上 传 的 都 是 文本 文件 ， 还 可 以 上 传 其 他 格式 的 文件 ， 如 图 9-15 所 示 。 


16) 
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云 文件 上 传 
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图 9-15” 云 文件 上 传 
17) 上 传 成 功 后 再 去 浏览 一 下 ， 如 图 9-16 所 示 。 
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图 9-16 浏览 文件 夹 
18) 进入 files 文件 夹 下 ， 可 以 看 到 文件 ， 如 图 9-17 所 示 。 
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图 9-17 浏览 上 传 文件 
19) 当 看 到 这 个 云 上 有 什么 资源 时 ， 可 以 通过 云 文件 下 载 ， 来 获得 资源 ， 如 图 9-18 所 示 。 
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图 9-18 云 文件 下 载 
20) 点 击 下 载 ， 就 可 以 看 到 浏览 器 已 经 开始 下 载 ， 如 图 9-19 所 示 。 
© 添加 新 下 载 
Mir: http://master:8080/education/downloadfile?filename- 96E5969096, 


FRA: NEU M Du... 


Joh: 119B CHH : 1971GB 
用 迅雷 下 载 交 直接 打开 下 载 取消 
图 9-19 下载 界面 


21) 然后 也 可 以 删除 云 上 的 文件 ， 如 图 9-20 所 示 。 
22) 可 以 看 到 文件 已 经 删除 ， 如 图 9-21 所 示 。 
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GS 个 人 私有 存储 系统 
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图 9-20 云 文 件 删 除 


HARA © 2013 B p aitan 


B 新 建 去 日 记 
云 日 记 删 除 


Fee Ghee hs 
ZTA 
BPH 
云 文件 册 除 


EM [i] [e [^ 


23) 上 面 是 云 存储 最 
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简单 的 实例 ， 使 用 到 了 HDFS 来 制作 。 
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4510 Fe ”气象 数 据 分 析 云 综合 实 训 


10.1 实验 目的 


1) 熟悉 云 计 算 的 原理 。 
2) 擎 握 云 计算 的 根本 技术 。 


10.2 ”实验 设备 
硬件 ， 云 计算 一 体 机 、PC， 
10.3 RA 


1) 操作 气象 数据 分 析 云 项 目 。 
2) 分 析 云 计算 的 原理 。 


10.4 ”实验 原理 


1. 分 析 天 气 数据 
public class WeatherParsingServlet extends HttpServlet | 
private static final long serialVersionUID =1L; 
private static final Configuration conf = HadoopConfiguration 


. getConfiguration ( ) ; 


public WeatherParsingServlet ( ) | 
super( ) ; 


ff * 
* Map 任务 ,用 于 从 HDFS 上 读 取 天 气 数据 文件 ,然后 分 析 这 些 数 据 文 件 ,每 一 条 数 
据 代 表 一 日 的 天 气 信息 ,然后 把 这 些 数据 文件 传输 给 Reduce 任务 
public static class MeteorologicalMapper extends 


Mapper < LongWritable , Text , Text , MeteorologicalBean > | 
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public static enum Counters 


ROWS 


// 读 取 一 行 数据 后 ,该 方法 就 开始 处 理 
public void map( LongWritable key , Text value, Context context ) 
throws IOException, InterruptedException | 
String | array = value. toString( ). split("\t") ; 
if( array. length = =2) | 
String| | metes = array| 1 |. split(";") ; 
if( metes. length = 23) | 
try | 
String| |temps = metes| 0 |. substring( 
metes | 0 |. indexOf("(") +1, 
metes| 0 |. indexOf(")") ). split("/") ; 
MeteorologicalBean mb = new MeteorologicalBean( ) ; 
if( temps. length = =2) | 
mb. setMaxTemp( Float. parseFloat( temps| 0 |. substring( 
temps] 0 |. indexOf(" max;") +"max:". length( ) , 
temps| 0 |. indexOf( C") ) ) ) ; 
mb. setMinTemp( Float. parseFloat( temps| 1 |. substring( 
temps| 1 |. indexOf(" min;") +" min;". length( ) , 
temps| 1 |. indexOf( C") ))) ; 
| 
String humidity = metes| 1 |. substring( 
metes| 1 |. indexOf("(") +1, 
metes| 1 |. indexOf(")") ) ; 
mb. setHumidity ( Float. parseFloat ( humidity. substring(O, 
humidity. indexOf("%") ) ) ) ; 
String WSP = metes| 2 |. substring( 
metes| 2 |. indexOf("(") +1, 
metes| 2 |. indexOf(")") ) ; 
mb. setWSP( Float. parseFloat( WSP. substring(O, 
WSP. indexOf(" m/s ") ) ) ) ; 
context. write ( 
new Text(array| 0 |. substring (0, 
array | 0 |. lastIndexOf( "-") ) ) ,mb ; 
context. getCounter( Counters. ROWS ). increment( 1 ) ; 
| catch ( Exception e) | 
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e. printStackTrace( ) ; 


7 s 
x Reduce 任务 类 ,该 类 用 户 处 理 Map 任务 提交 过 来 的 每 日 天 气 数 据 信 息 ,然后 把 这 
些 信息 相 加 并 平均 ,最 后 把 结果 写 人 HDFS 文件 当中 去 
*/ 


public static class MeteorologicalReducer extends 


Reducer < Text , MeteorologicalBean , Text , Text > | 
public void reduce( Text key, Iterable < MeteorologicalBean > values, 
Context context) throws IOException , InterruptedException | 
int count =O; 
float maxTempTotal = 0. Of; 
float minTempTotal =0. Of; 
float humidityTotal = 0. Of; 
float WSPTotal =0. Of; 
for ( MeteorologicalBean mb: values ) | 
count + +; 
maxTempTotal + = mb. getMaxTemp( ) ; 
minTempTotal + = mb. getMinTemp( ) ; 
humidityTotal + = mb. getHumidity( ) ; 
WSPTotal + =mb. getWSP( ) ; 
| 
context. write( key , new Text(" AVG | Temp( max:" + maxTempTotal/count 
+"C/min :" + minTempTotal/count +"C ) ; Humidity (" 
+ humidityTotal/count +"% ) ; WSP(" + WSPTotal/count 
+"m/s)1")); 


PE 
* 处 理 用 户 提 交 的 天 气 数 据 云 计算 分 析 , 用 户 提交 了 分 析 的 命令 以 后 ,该 方法 会 回 
Hadoop 集群 提交 一 个 Map/Reduce 任务 ,用 于 执行 天 气 分 析 的 任务 
* / 
public void doGet( HttpServletRequest request , HttpServletResponse response ) 
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throws ServletException , IOException | 
request. setCharacterEncoding(" utf- 8 ") ; 
UserBean ub = ( UserBean ) request. getSession( ). getAttribute( " user ") ; 
if( ub = - null) | 

request. getRequestDispatcher( "login. jsp "). forward( request, 
response ) ; 

| else if (ub. getUserld( ). equals(" admin") ) | 

FileSystem fs = FileSystem. get( conf) ; 

Path out = new Path( "/tomcat/experiment/weathercloud/ results ") ; 

if ( fs. exists( out) ) | 

fs. delete ( out, true ) ; 
| 
/开始 生成 处 理 天 气 数 据 的 Map/Reduce 任务 job 信息 ,然后 提交 给 Hadoop 
集群 开始 执行 

Job job = new Job( conf," Parsing Meteorological Data") ; 

job. setJarByClass ( WeatherParsingServlet. class) ; 

Path in = new Path("/tomcat/experiment/weathercloud/uploaddata ") ; 

FileInputFormat. setInputPaths( job ,in ) ; 

FileOutputFormat. setOutputPath ( job out ) ; 


job. setMapperClass ( MeteorologicalMapper. class ) ; 


job. setReducerClass ( MeteorologicalReducer. class) ; 


job. setInputFormatClass ( TextInputFormat. class) ; 
job. setOutputFormatClass ( TextOutputFormat. class ) ; 
job. setOutputKeyClass ( Text. class) ; 

job. setOutputValueClass ( MeteorologicalBean. class ) ; 


job. setNumReduceTasks( 1 ) ; 
// 生 成 job 信息 完成 
try | 
// 提 交 job 给 Hadoop 集群 ,然后 Hadoop 集群 开始 执行 
job. submit( ) ; 
request. getRequestDispatcher("/mrlink. jsp "). forward ( request, 
response ) ; 
| catch( Exception e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 
request. getRequestDispatcher( 
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"error. jsp? result = 任务 作业 提交 失败 ,请 查看 集群 是 否 正 篆 
运行 . "). forward( 


request ,response ) ; 


2. 处 理 分 析 结 末 

public class PreviewWeatherResultServlet extends HttpServlet | 
private static final longserialVersionUID =1L; 
private static final Configuration conf = HadoopConfiguration 


. getConfiguration ( ) ; 


public PreviewWeatherResultServlet ( ) | 


| 


/ * 

x 处 理 用 户 提交 的 浏览 云 计算 天 气 数据 的 结果 ,服务 端 谈 取 mapreduce 计算 的 生成 
的 结 打 文件 ,然后 把 信息 返回 给 客户 端 

*/ 


public void doGet( HttpServletRequest request, HttpServletResponse response) 
throws ServletException , IOException | 
//request. setCharacterEncoding( Charset. defaultCharset( ). toString( ) ) ; 
request. setCharacterEncoding(" utf- 8 ") ; 
UserBean ub = ( UserBean ) request. getSession( ). getAttribute( " user ") ; 
if( ub = - null) | 
request. getRequestDispatcher( "login. jsp"). forward ( request, 
response ) ; 
| else | 
// 开 始 读 取 结果 文件 
FileSystem fs = FileSystem. get( conf ) ; 
Path_success = new Path( 
"/tomcat/experiment/ weathercloud/results/_SUCCESS ") ; 
if( | fs. exists(_success ) ) | 
request. setAttribute( " result ", null) ; 
request. getRequestDispatcher("/weatherresult. jsp "). forward( 
request , response ) ; 
| else | 


request. setAttribute( " result ",™) ; 


? 
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Path reduceRusult = new Path( 
"/tomcat/ experiment/ weathercloud/results/ part-r-00000 ") ; 
if( fs. exists ( reduceRusult ) ) | 
FSDatalnputStream fsdis = fs. open( reduceRusult ) ; 
BufferedReader br = new BufferedReader( 
new InputStreamReader( fsdis ," UTF-8 ") ) ; 
String line = null; 
int count =O; 
float maxTempTotal = 0. Of; 
float minTempTotal = 0. Of; 
float humidityTotal = 0. Of; 
float WSPTotal =0. Of; 
//2012-01 
// ANG | Temp ( max; 21. 754515°C/min; 12. 678706 ) ; Humidity 
(46. 571696 ) ; WSP(19. 337095m/3s) | 
[开始 汇总 读 取 到 的 每 一 行 数 据 文件 ,主要 的 操作 是 把 所 有 结 末 
ASL ES ,然后 返回 给 客户 端 
while( ( line = br. readLine() )! = null) | 
String| | array = line. split("\t") ; 
if( array. length = =2) | 
MonthBean monBean = new MonthBean( ) ; 
String value = array| 1 |. substring ( 
array| 1 |. indexOf("|") +1, 
array| 1 |. indexOf("}") ) ; 
String| | metes = value. split(";") ; 
if( metes. length = =3) | 
try | 
String| |temps = metes] 0 |. substring ( 
metes| 0 |. indexOf("(") +1, 
metes| 0 |. indexOf( ") ") ). split ('V 


if( temps. length = =2) | 


monBean. setMaxTemp( Float. parseFloat( temps| 0 |. substring ( 
temps| 0 |. indexOf(" max ;" 
+"max:". length( ) , 
temps] 0 |. indexOf(*C") ) ) ) ; 


maxTempTotal + = monBean. getMaxTemp( ) ; 
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monBean. setMinTemp( Float. parseFloat( temps| 1 |. substring( 
temps| 1 |. indexOf(" min." 
+"min;". length( ) , 
temps] 1 |. indexOf(*C") ) ) ) ; 
minTempTotal + = monBean. getMinTemp( ) ; 

| 
String humidity = metes| 1 |. substring( 

metes| 1 |. indexOf("(") +1, 

metes| 1 |. indexOf(")") ) ; 
monBean. setHumidity ( Float 

. parseFloat( humidity. substring (0 , 

humidity. indexOf("%") ) ) ) ; 

humidityTotal + = monBean. getHumidity ( ) ; 
String WSP = metes| 2 |. substring( 

metes| 2 |. indexOf("(") +1, 

metes| 2 |. indexOf(")") ) ; 
monBean. setWSP( Float. parseFloat( WSP 

. substring( 0, WSP. indexOf(" m/s") ) ) ) ; 
WSPTotal + = monBean. getWSP( ) ; 
count + + ; 
| catch( Exception e) | 

e. printStackTrace( ) ; 


] 
System. out. println( array | O |. split("-) | 1] ) ; 
request. setAttribute( array | O |. split("-) | 1], 


monBean ) ; 


| 

// 读 取 结 果 文 件 完 成 

//2012-12 

// AVG | Temp ( max; 21.760002°C/min; 13.001612°C ); Humidity 
(51. 9754996 ) ; WSP(21. 388714m/5s) | 

request. setAttribute( " maxTemp ", maxTempTotal/count ) ; 

request. setAttribute(" minTemp ", minTempTotal/count ) ; 

request. setAttribute( " humidity ", humidity Total/count ) ; 

request. setAttribute( " WSP ", WSPTotal/count ) ; 

request. getRequestDispatcher("/weatherresult. jsp "). forward( 


request , response ) ; 
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else | 


request. setAttribute ("result ", null) ; 


10.5 实验 步 又 


第 三 个 实验 项 目 : 气象 数据 分 析 。 
1) 进入 之 后 是 一 个 操作 页 面 ， 如 网 10-1 所 示 。 


|. esas e 


erte 
全 文件 下 载 


t CREME LE 


m sexuemps 点 击 下 载 示例 文件 : Ta 
ce 气象 数据 计算 
RES 


版 可 所 有 名 2013 JE EIER StH REESE] 


图 10-1. 实例 文件 下 载 
2) 进入 之 后 首先 有 一 个 实例 下 载 ， 点 击 下载 ， 如 图 10-2 所 示 。 


CHEER : 19.69GB 


HRE hee Y 


图 10-2 FRA H 
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3) 下 载 成 功 ， 打 开 查 看 实例 文件 内 容 ， 如 图 10-3 所 示 。 


Bl FEE 
2012-01-01 Temp (max: 8.16°C /n1n:-5.34'C) Humidity (30. 681) ;NSP (22.61n/a) 


2 ud Temp (rax:2.61'C/zin:1.31'C) ; Humidity (22.333) :WSE (5. 94m/a) 

3 2012-01- Temp (max:9.91°C /m1n:0.46 C ) : Humt di cy (48.833) :MSP (25.36m/2) 

4 012-01-04 Temp (max:5.38 'C /nin:-12.58'C ) : Hunidivy (1.518) :zWSP (23.35m/2) 

5 2012-01-05 Temp (max: 6.04°C /zin:-S. 1 'C) :Hunidity(0.268) :WSP(6.31m/5) 

é 2012-01-06 Temp (max:5.43'C /rin:-11.78'C) 7Humidity (21.67%) 7WSP(S.43m/s) 

7 2012-01-07 Tenp (max: 6.69°C /n1n:-8.01'C ) ;Humidi ty (5.291) :WSP (20. 96m/a) 

5 2012-01-08 Temp (max:0.50°C /r1n:-15.03'C) ;Humidity (23.70%) ;NSP (14. 72m/ a) 

3 2012-01-09 Temp (max: 9.70°C /min:-7.18) sHumidity (15.92%) :WSP (5.38m/2) 
10 2012-01-10 Tenp(rax:5.57'C /nin:-9.93'C) Humidity (2.79%) : WSP (16. 2680/23) 
131 4012-01-11 Temp (max: 9.36 /nin:3.53'C ) z bmnidity(34.374) :zWSP (3. 82m3) 
12 2012-01-12 Temp (max: 3.37 'C /nin:-1.78'C) zHumidity(6.023) :zWSP (5.13m/3) 
15 2012-01-13 Tenp(max:1.75'C /min:-11.53'C) ;Humidity (37.55%) ;WS2(25.21m/s) 
24 2012-01-14 Temp (max:7.69°C ‘min: 7.00); Humidity (20.47%) ;WSE(12.64m/a) 
15 2012-01-15 Temp (max: 6.63C /11n:5.02'C ) : Humtd1rcy (26.381) ;WSP(L2.25m/a) 
16 2012-01-16 Temp (pax: 9.61°C /min:-0.02) sHumidity (23.33%) ;WSP(25.42m/a) 
17 2012-01-17 Temp (max: 3. 71 'C /nin:-3.21'C) zitumidity (26.938) :WSP (5.13m/2) 

2012-01-18 Tezp (ax:1.39'C /nin:-7.80'C) Humidity (30.368) :WSP (5.650/3) 

19 2012-01-19 Temp (max:0.02'C /nin:-6.33'C ) ;Humidity (18.13%) :RSP (B .08m/2) 
20 2012-01-20 Terp (max:0.20'C /nin:-14.12'C) i Humidity (23.21%) ;WSP(7.97m/4) 
21 2012-01-21 Temp (max:5.15'C /nin:-4.90'C) Humidity (6.36%) :NSE (0. 71n/2) 
22 2012-01-22 Temp (max: 3.75°C /min:-9.42°C) ;Humidity (4.59%) :WSP(13.41n/3) 
23 2012-01-23 Temp (max: 4.22 /11n:0.22'C ) : Humidity (0.46%) :zWSE (6. 92m/2) 
24 2012-01-24 Temp (rax: 8.12'C /rin:-1.21'C) zHumidity (31.744) :WSP (3. 30m3) 
25 2012-01-25 Temp (max:4.87'C /nin:0.43'C ) z Hunidity(10.5245) :WSP (10.54n/3) 
26 2012-01-2€ Tezp(zax:1.38'C /nin:-2.07'C ) ;Humidity (9.50%) ;WSP (24.14n/2) 
27 2012-01-21 Tenp(max:1.88'C/min:-7.62'C) ;Humidity(10.84t) ;WSP (26.08n/2) 
28 2012-01-28 Temp (max:8.76°C /m1n:-7.88'C) zHumidiry(26.411);WSP(14.66m/2) 
za 2012-01-29 Temp (max:4.04°C /n1n:-10.69'C) ;Humidity (45.40%) *NSP(9.16n/3) 
30 2012-01-30 Temp (rax:0.55'C /nin:-3.11'C) sHumidity (45.10%) :zWSP(18.43n/2) 
31 2012-01-31 Texp (max:3.39'C /rin:-9.91' C) :Hunidity(32.568) :WSP (23.11m/3) 
32 2012-02-01 Temp (zax:8.77'C /nin:3.84'C ) ; Humidity (14.79%) :WSP (2. 26m/s) 
33 2012-02-02 Temp (max:1.08'C /nin:-16.77'C) ;Humidity (28.30%) ;WSP (30. 05m/ s) 

4 2012-02-03 Terp (ma1:7.11'C /min: 6.92) Humidity (3.56%) ;WSE(8.21m/a) 

35 2012-02-04 Tenp(màax:13.61'C /min:6.83'C) ; Humidity (16.11%) ;WSP (20.90n/2) 
36 2012-02-05 Temp (max: 2.94°C /min:<1.01C) sHumidity (44.94%) :WSP(L6.18m/a) 
37 4012-02-06 Temp (max:0.19'C /rin:-12.85'C) : Bumidity(33.31&8) :WSP(7.45m/3) 
33 2012-02-07 Tezp (max:11.34'C /min:-4.41'C) :Humidity (11.16%) zWSP (17. 98m/ 5) 
19 2012-02-08 Temp (max:5.30'C /nin:5.53'C ) Humidity (27.20%) HSE (18.02m/2) 
40 2012-02-09 Tenp (2a1:7.99'C /nin:-1.48'C) Humidity (46. 901) ; WSE (28. 65m/4) 
i1 2012-02-10 Temp (max:0.01'C /n1n:-9.44'C) ;Humidity (7.512) ;WSP (10.98m/2) 
42 2012-02-11 Temp (max: 6.91°C /min:3.65) pHumidity (52.242) :WSE(12.83n/3) 
43 2012-02-12 Temp (max: 3.97°C /nin:-4.62'C) sHumidity (4.92%) ;WSP(Z0.14m/a) 
44 2012-02-13 Temp (max: 2.93°C /min:-14.94) :Humidity (22.62%) :WSP(17.28m/3) 
45 2012-02-14 Tenp(max:5.17'C/nin:-4.59'C) :fhunidity(51.698) :WSP(26.d0m/3s) 
46 2012-02-15 Temp (max:9.18'C /nin:-3. 68 C) zHunidi ty (41. 548) zWSP (6.3 7m/s) 
i7 2012-02-16 Temp (max:12.77°C /min:-3.64'C ) ;Humidity (43.96%) ;WSP (30. 72n/ 2) 
48 2012-02-17 Tenp(max:1.19'C /nin:-15.30'C ) ; Humi diry (14.381) ;NSP (9.92n/a) 
49 2012-02-18 Tenpimax:83.94'C /rin:-0.52'C) Humidity (9.76%) ;WSP(Z1.56m/a) 
50 2012-02-19 Termp(max:5.95'C /nin:-3.83'C) sHumidity (38.92%) :-WNSP(12.51m/z) - 
3 md t 


fzi pi 3&6 3a Pe UTF-B 


图 10-3 ”查看 实例 文件 内 容 
4) 这 个 文件 里 模拟 了 一 年 的 天 气 数据 ， 这 里 面包 括 了 四 个 参数 ， 当 天 的 最 高 、 最 低 气 
温 、 湿 度 和 风速 ， 这 个 实例 是 提供 给 学 生来 修改 的 ,修改 文 件 之 后 可 以 上 传 到 云 上 ， 如 图 
10-4 所 示 。 


国 oig pi 


数据 文件 名 : | C:\Users\hadoop\Desktop\beij| 浏 鉴 | 


oe SEES 
气象 数据 查看 


版 要 所 有 名 2013 北京 禾 步 至 伟 科 搞 公 司 


K| 10-4 上 传 气 象 数 据 文件 
5) 测试 时 最 好 一 个 学 生 代表 一 个 地 区 ， 如 图 10-5 所 示 。 
6) 上 传 成 功 后 ， 到 气象 数据 云 计算 中 看 到 上 传 的 地 区 数据 ， 多 个 学 生 可 以 通过 目 己 的 账 
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EZ «sauna e | 


示例 文件 下 载 


AEk. LAL 
i “REELI 数据 文件 个 数 : 14 
iu 


Pa Mame frypdsize  feplicaniorBiock SizdModification Time)PermissionjOwner [aroun | 


oe SZARA 
气象 数据 查看 


县 要 所 有 名 2013 knik He aso) 


图 10-5 气象 数据 云 计算 
户 上 传 文件 ， 然 后 点 击 开 始 云 计算 ， 这 个 界面 具有 admin 用 户 有 权限 看 到 ， 如 图 10-6 PTR. 


作业 任 处 已 成 功 提交 


Bch mets MapReduce {Tike 


nitp.i master sgag 
返回 上 一 层 页 面 
Te E 


K| 10-6 任务 提交 成 功 
7) 然后 可 以 到 后 台 查 看 任务 ， 如 图 10-7 所 示 。 


D master:50030)/j 


YUL LIMES 


master Hadoop Map/Reduce Administration 


State: RUNNING 

Started: Fri Nar 29 18:22:20 CST 2013 

Version: 1.0.1, r1243TE85 

Compiled: Tue Feb 14 08:15:38 UTC 2012 by hortonfo 
Identifier: 201303231822 


ara Eds Ava. — |Blacklimtnd | Crarlisted| Excluded 
Slots Hap Slots Capacity ATS Tasks/Node Nodes Nodes Nodes 


Scheduling Information 


Eee | 


Filter (Jobid, Priority, User, Name) | 
Huample: 'user:smith 3200" will filter by 'smith' only in the user field and "3200" in all fields 


ap % Tap Taps Reduce 4 Reduce Job 
seta Priority [uor [rome [tee [Tota n [rove E 


Parsing 
job 201203231822 0001 | NORMAL | hadoop | Netcorological OL o8 ù. COR | 

Data 
Te E E a e a 


Retired Jobs 


图 10-7 ”页面 浏览 任务 
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8) 可 以 看 到 有 一 个 任务 在 运行 ， 可 以 看 到 任务 的 进度 ， 如 图 10-8 所 示 。 


Hadoop job 201303291822 0001 on master 


Submit Host: meted 

Submit Host Address: 192.168. 0.101 
Job-ACLs: All users are allowed 

Job Setup: 

Status: Running 

Started at: Fri Nar 29 19:01:57 CST 2013 
Running for: 17sec 

Job Cleanup: Pending 


— 
radue | ues = oc 


Hap 
SLL ws [— | J n 
. FUIT ee 4 
Job Counters 
EET ~ ED 


Detelocal mp tant Slat 
ROWS 730 ü T30 


图 10-8 页 面 浏 览 任 务 进 度 
9) 计算 完毕 后 ， 可 以 通过 气象 结果 查看 ， 看 到 全 国 的 平均 数据 ， 还 有 每 个 月 的 平均 数 
据 ， 如 图 10-9 所 示 。 


com. education. mapreduce, PeatherParsingScerrlet$Metceorologicallapper Counters 


E. onini 


pale 全 年 气象 数据 均值: deri: zn 
E AERE: 4.883554C 
gos —- come 
[] 气象 数据 删除 i: 4.883554m/s 
Eon 气象 数据 统计 
气象 数据 查看 2012-2013 年 
E x 60 
È 40 
- 
由 20 
出 
Ed 
F o 


"ibi 2 年 2 月 2012 年 3 月 2012 年 4 月 2012 年 5 月 2012 年 6 月 2012 年 7 月 2012 年 3 月 2012 年 9 月 201256108 201 256115 201237125 2013261, 


[+ Meteorological: MinTemp(C) -- Meteorological:MaxTemp(C) Æ- Meteorological: Humidity(%) =æ Meteorological: WSP(m/'s) 


北京 斑 步 至 伟 科技 必 司 


图 10-9 气象 数据 查看 


BL BU AD RAR aT UI 


11.1 实验 目的 


1) 了 解 人 物 关 系 分 析 的 实现 原理 。 
2) 能 够 掌握 人 物 关系 分 析 的 技术 。 


11.2 实验 设备 
硬件 ， 云 计算 一 体 机 、PC， 
11.3 ”实验 内 容 


1) 操作 微 信 人 物 关 系 项 目 。 
2) 通过 源码 更 改 分 析 信 息 。 


11.4 实验 原理 


publie class WeixinParsingServlet extends HttpServlet | 


y ec 

x 

Ey 

private static final longserialVersionUID = 1L; 

private static final Configuration conf = HadoopConfiguration 


. getConfiguration ( ) ; 


public WeixinParsingServlet( ) | 
super( ) ; 


| 


jf 3k 
x Map 任务 ,主要 执行 的 操作 是 从 数据 库 中 该 取 微 信任 务 信息 ,然后 从 分 析 条 件 文件 
里 谈 取 信息 ,把 这 些 分 析 数 据 准 备 信息 先 读 取 到 内 存 当 中 
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* 然后 开始 逐 行 读 取 数据 文件 信息 ,并 开始 分 析 
er 
public static classWeixinMapper extends 
Mapper < LongWritable , Text , Text , Text > | 
private static final SimpleDateFormat sdf = new SimpleDateFormat( 
"yyyy-MM-dd HH:mm:ss") ; 
private static final byte| | lock = new byte| 0 | ; 
private static Map < String, WeixinParsingBean > parsingMap = null; 


private static Map < String, WeixinUserBean > weixinuserMap = null; 


public static enum Counters | 


ROWS 


// 每 个 数据 块 开始 执 行 之 前 进行 的 设置 信息 ,这 里 主要 是 从 数据 库 中 和 分 析 条 
件 文件 中 读 取 预 处 理 的 信息 ,为 数据 文件 的 分 析 做 准备 
public void setup( Context context ) | 
synchronized ( lock ) | 
if( parsingMap = =null || weixinuserMap = = null) | 

parsingMap = new HashMap < String , WeixinParsingBean > ( ) ; 
weixinuserMap = new HashMap < String , WeixinUserBean > ( ) ; 
FileSystem fs; 


try | 
/开始 谈 取 分 析 数 据 文 件 
fs = FileSystem. get( context. getConfiguration( ) ) ; 
FileStatus| | uploadparsing = fs 
. listStatus( new Path ( 


"/tomcat/ experiment/ weixincloud/uploadparsing ") ) ; 
for( FileStatus ele : uploadparsing ) | 
FSDatalnputStream fsdis = fs. open( ele. getPath( ) ) ; 
String fileName - ele. getPath( ). getName( ) 
. split( "A V. [0]; 
BufferedReader br = new BufferedReader( 
new InputStreamReader( fsdis ," UTF-8 ") ) ; 
String line = null; 
//timePoint -2013-03-05 13.57.40 durationTime :56 
// gender ; 9 9j 
//isFriend: f? ageSpan:22 42 22vocation ; null 
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words :我 爱 你 
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// communicationPlace :北京 市 海淀 区 ,北京 市 朝阳 区 key- 


try | 
while( ( line = br. readLine( ) )! = null) | 
WeixinParsingBean wpb = new WeixinParsingBean( ) ; 
String| | original = line. split("\t") ; 
if( original. length = =8) | 
if( | original| 0]. contains(" null") ) | 
wpb. setTimePoint ( sdf 
. parse ( original | 0 | 
. substring ( original] O | 
. indexOf(":") +1) ) 
. getTime( ) ) ; 


if( | original[ 1 |. split(":") [ 1 | 
. equals(" null ") ) | 
wpb. setDurationTime( Integer 
. parselnt( original[ 1 | 


. split(":") [1])); 


String gender = original| 2 |. split(":") [1]; 
if( ! gender. equals(" null ") ) | 
if( gender! - null) | 
if( gender. equals ("E 35") ) | 
wpb. setGender(" 11 ") ; 
| else if ( gender. equals ("ir") ) | 
wpb. setGender(" 00 ") ; 
| else if( gender. equals ("FTE") ) | 
wpb. setGender("01 ") ; 
| else | 


wpb. setGender(" ALL") ; 


if( | original[ 3 |. split(":") [ 1 | 
. equals ( " null ") ) | 
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if( original| 3 |. split(".")| 1 | 
. equals ( 4") ) | 
wpb. setFriend(" true ") ; 
| else if( original[ 3 |. split(":") [ 1 ] 
. equals ("6") ) | 
wpb. setFriend(" false ") ; 


| else | 


wpb. setFriend(" ALL ") ; 


String ageSpan = original| 4 |. split(";")| 1] ; 
if( ! ageSpan. equals(" null ") ) | 
wpb. setMinAge( Integer 
. parseInt ( ageSpan 
. split(*58) [0])) ; 
wpb. setMaxAge( Integer 
. parseInt ( ageSpan 


. split( "全 ") [1])) ; 


if( ! "null". equals( original[ 5 | 
. split(*;) [1])) | 
wpb. setVocations( original[ 5 | 
. split(":") [1]) ; 


if( ! "null". equals( original[ 6 | 
. split(*:) [1])) | 
wpb. setCommunicationPlace ( original| 6 | 


. split(":") [ 1]. split(",") ) ; 


if( ! "null". equals( original 7 | 
. split(":")[1])) | 
wpb. setKeywords( original | 7 | 
. split(":") [1]. split(",") ) ; 


| 


parsingMap. put( fileName ,wpb ; 
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| catch( Exception e) | 
e. printStackTrace( ) ; 
| 
fsdis. close( ) ; 
| 
// 读 取 数 据 库 的 微 信 任务 信息 
Path path = new Path( 

"/ tomcat/ experiment/ weixincloud/tmp/ DERBY. db ") ; 
FSDatalnputStream fsdis = fs. open( path ) ; 
BufferedReader br = new BufferedReader ( 

new InputStreamReader( fsdis ," UTF-8 ") ) ; 
String line = null; 
while( ( line = br. readLine( ) )! - null) | 
String| | array = line. split("\t") ; 


try | 
if( array. length = 26) | 

WeixinUserBean wub = new WeixinUserBean( ) ; 
wub. setId( Integer. valueOf( array | 0 | ) ) ; 
wub. setName( array| 1 | ) ; 
wub. setAge( Integer. valueOf( array| 2 | ) ) ; 
wub. setSex( array| 3 | ) ; 
wub. setVocation( array| 4 | ) ; 
wub. setFriends( array| 5 | ) ; 
weixinuserMap. put( array| 0 | ,wub ; 

| 

| catch( Exception e) | 
e. printStackTrace( ) ; 


| 


| catch ( IOException e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 


// 数 据 文件 里 的 每 一 个 行 数据 都 会 经 过 该 方法 的 处 理 , 这 里 主要 分 析 了 每 条 数据 是 
不 是 符合 用 户 定义 的 分 析 条 件 , 如 果 符 合 则 把 该 数据 发 给 reduce 任务 
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public void map( LongWritable key ,Text value , Context context ) 
throws IOException , InterruptedException | 
// | 10001 , 10084} \t 2013-02-16 19:22:46 \t 2013-02-16 21:32:45 \t 
// UC rH AN PZ 
// WIET? 
String| | array = value. toString( ). split("\t") ; 
if( array. length = =5) | 
try | 
// 开 始 对 每 行 数据 进行 逐条 分 析 , 看 是 不 是 满足 用 户 定义 的 条 件 信息 
long beginTime = sdf. parse( array| 1 |). getTime( ) ; 
long endTime = sdf. parse( array| 2 | ). getTime( ) ; 
String| | ids = array | 0 |. substring ( 
array | 0 |. indexOf("|") +1, array| 0 |. indexOf("}") ) 
. split(",") ; 
if( ids. length = 22) | 
for( Map. Entry < String , WeixinParsingBean > me: parsingMap 
. entrySet( ) ) | 
if( me. getValue( ). getTimePoint( )! =OL) | 
if( beginTime < me. getValue( ). getTimePoint( ) ) | 


continue ; 


| 
if( me. getValue( ). getDurationTime( )! =0) | 
if( endTime-beginTime « 1000L * me. getValue( ) 
. getDurationTime( ) * 60) | 


continue ; 


| 
if( me. getValue( ). getCommunicationPlace( ) ! = null) | 
boolean pass - false ; 
for( String ele:me. getValue( ) 
. getCommunicationPlace( ) ) | 
if( ele. trim( ). equals( array | 3 ]. trim( ) ) ) | 
pass = true; 


break ; 


| 
if(! pass) | 


continue ; 


综合 实 训 A 
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| 
if( me. getValue( ). getKeywords( ) ! = null) | 
boolean nopass - false ; 
for( String ele:me. getValue( ). getKeywords( ) ) | 
if( ! array| 4 |. contains( ele) ) | 
nopass = true; 


break ; 


if( nopass ) | 


continue ; 


| 
if( ! (me. getValue( ). getGender( ). equals(" ALL") ) ) | 


if( me. getValue( ). getGender( ). equals(" 00 ") ) | 
if( | ( weixinuserMap. get( ids| 0 | ). getSex( ) 
. equals ( c") ) ) | 
continue ; 
] 
if( | ( weixinuserMap. get( ids| 1 | ). getSex( ) 
. equals ( "Z") ) ) | 
continue ; 
] 
| else if( me. getValue( ). getGender( ) 
. equals(" 11 ") ) | 
if( | ( weixinuserMap. get( ids| 0 | ). getSex( ) 
. equals(" 33") ) ) | 
continue ; 
| 
if( | ( weixinuserMap. get( ids| 1 | ). getSex( ) 
. equals ("F") ) ) | 
continue ; 
| 
| else if( me. getValue( ). getGender( ) 
. equals("01 ") ) | 
if( weixinuserMap 
. get(ids| 0 | ) 
. getSex( ) 
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. equals( weixinuserMap. get(ids[ 1 | ) 
. getSex( ) ) ) | 


continue; 


| 
if( ! (me. getValue( ). getFriend( ). equals(" ALL") ) ) | 


if( me. getValue( ). getFriend( ). equals(" true ") ) | 
if( | ( weixinuserMap. get( ids| 0 | ) 
. getFriends( ). contains( ids| 1 | ) ) ) | 
continue ; 
] 
if( | ( weixinuserMap. get( ids| 1 | ) 
. getFriends( ). contains( ids| 0 ] ) ) ) | 
continue ; 
] 
| else if( me. getValue( ). getFriend( ) 
. equals(" false") ) | 
if( weixinuserMap. get( ids| 0 | ). getFriends( ) 
. contains( ids| 1 | ) 
&&weixinuserMap. get( ids[ 1 | ) 
. getFriends( ) 
. contains( ids[ 0 ] ) ) | 


continue ; 


| 
if( me. getValue( ). getMinAge( ) >0 
&&me. getValue( ). getMaxAge( ) >0) | 
if( weixinuserMap. get( ids| 0 | ). getAge( ) < me 
. getValue( ). getMinAge( ) 
| | weixinuserMap. get( ids| 0 |). getAge( ) > me 
. getValue( ). getMaxAge( ) ) | 
continue ; 
] 
if( weixinuserMap. get( ids| 1 | ). getAge( ) < me 
. getValue( ). getMinAge( ) 
| | weixinuserMap. get ( ids| 1 |). getAge( ) » me 
. getValue( ). getMaxAge( ) ) | 
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continue ; 


| 


if( me. getValue( ). getVocations( ) ! = null) | 
if( ! ( me. getValue( ). getVocations( ) 
. contains ( weixinuserMap. get( ids| 0 | ) 
. getVocation( ) ) ) ) | 
continue ; 
| 
if( ! (me. getValue( ). getVocations( ) 
. contains ( weixinuserMap. get( ids| 1 | ) 
. getVocation( ) ) ) ) | 


continue ; 


| 


context. write( new Text( me. getKey( ) ) , value) ; 


| 


| catch ( Exception e) | 
e. printStackTrace( ) ; 


| 


context. getCounter( Counters. ROWS). increment( 1 ) ; 


publie void cleanup( Context context) | 


| 


PE. 

x reduce 任务 ,主要 用 来 收集 map 任务 过 程 中 产生 的 符合 条 件 的 结果 信息 ,然后 

对 这 些 结 采 进行 用 户 归 并 ,并 把 这 些 绪 朱 信息 写 和 人 到 

* hadoop 的 HDFS 文件 系统 当中 

* 

publie static classWeixinReducer extends Reducer < Text , Text , Text , Text > | 

public void reduce( Text key, Iterable < Text > values , Context context) 
throws IOException , InterruptedException | 


String content ="; 


/ / hà DI XS] 28 AR FV IF 
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for( Text value : values ) | 
content + = value. toString( ) +"\n"; 
| 
//context. write( new Text( title) ,new Text( content) ) ; 
// 把 结果 写 入 到 HDFS 中 
FileSystem hdfs = FileSystem. get( context. getConfiguration( ) ) ; 
Path path = new Path("/tomcat/experiment/ weixincloud/results/" 
+ key. toString( ) +". result") ; 
if( hdfs. exists( path ) ) | 
hdfs. delete( path, true) ; 
] 
FSDataOutputStream hdfsOut = hdfs. create( path ) ; 
hdfsOut. write( content. getBytes( ) ) ; 
hdfsOut. close( ) ; 
// 写 人 完成 ,并 关闭 相关 的 人质 源 


J * 

* ARPE EAC AIT UG IE zx TPR TOR, FE iig de oc EE 25 , AR itn TA HAE 
成 job 信息 ,然后 把 这 个 job 信息 传递 给 Hadoop 集群 

* LE Hadoop 集群 开始 执行 分 析 任务 

*/ 
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第 五 个 实验 项 目 : 微 信 关 系 分 析 。 
1) 进入 之 后 是 操作 界面 ， 如 图 11-1 所 示 。 


Ba 微 信 关 系 分 析 系 统 
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图 11-1 实例 文件 下 载 


LI 


2) 这 里 还 是 提供 了 


© 添 加 新 下 载 


一 个 实例 下 载 ， 如 图 11-2 所 示 。 
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3) 这 个 文件 是 一 个 数据 通信 的 文件 ，34 
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直接 打开 


图 11-2 ”实例 下 载 
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4) 这 个 是 
图 11-4 所 示 。 
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图 11-3 实例 文件 内 容 
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可 以 随便 更 改 ， 不 过 任务 信息 是 固定 的 ， 可 以 查看 一 下 ， 如 


5) 这 里 模拟 了 100 FAW, WA 11-5 所 示 。 


6) 人 物 微 信 ID 号 为 10001 ~ 10100 ， 这 个 是 模拟 出 来 的 ， 所 以 不 可 以 修改 。 
实例 可 以 随便 添加 内 容 ， 不 过 一 定 要 按照 格式 来 。 
含有 《钢铁 侠 3》 的 信息 然后 上 传 ， 如 图 11-6 所 示 。 
9) 上 传 之 后 可 以 在 页 面 上 看 到 是 否 上 传 成 功 ， 如 图 11-7 所 示 。 


7) 之 后 这 个 人 
8) 现在 记 住 一 条 
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本 向 信 关 系 分 析 系 统 


上 二， 示例 文件 下 载 
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通信 内 容 关 键 词 : 《条 个 关键 词 用 英文 逗 亏 隔 开 ) 
EB | WAH © 2013 北京 斑 步 至 伟 科技 公司 E 


图 11-4 ”浏览 微 信用 户 信 息 
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图 11-5 模拟 人 物 详情 
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Kl 11-6 模拟 数据 上 传 
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Contents of directory /tomcat/experiment/weixincloud/uploaddata 


Goto : /tarncat/experiment/weixir 


Replicatibn Block Size Modification Time Permission Owner Group 
weixindata.txt file 162.63 KB 2 64MB — 2013-052412:17. rw-r-r- — hadoop supergroup 


Go back to DFS home 


Local logs 


Log directory 


This is Apache Hadoop release 1.0.1 


图 11-7 页 面 浏 览 上 传 文件 
10) 现在 数据 传输 上 去 了 ， 可 以 开始 分 析 了 ， 现 在 编辑 一 下 查找 的 特征 ， 如 图 11-8 所 示 。 
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图 11-8 分 析 条 件 上 传 
11) 上 传 之 后 到 分 析 数 据 云 计算 中 进行 计算 ， 如 图 11-9 所 示 。 
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图 11-9 ”开始 云 计算 
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12) 任务 提交 后 ， 可 以 在 后 台 看 到 任务 ， 如 图 11-10 所 示 。 
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图 11-0 浏览 执行 任务 
13) 运算 完毕 后 ， 查 看 分 析 结 果 ， 如 图 11-11 所 示 。 


回 — 


+ TIRAT 


系统 为 您 分 析出 3 条 结果 : 


+t, Ruel 通信 人 :| {10003,10070} 
模拟 数据 上 传 开始 时 间 :| 2013-03-01 23:33:08 
分 析 条 人 忻 上 传 结束 时 间 :| 2013-03-02 02:31:10 
通信 地 点 北京 市 虎 坊 烽 西 站 
m suas EAS — €HNKEGOESHEZNDIOEES, Hi Google 元 素 更 是 发 挥 得 恰到好处 ， 同 时 也 见识 到 了 甲骨 文 
模拟 数据 删除 的 去 计算。 云 计算 将 不 仅 能 够 各 助 企业 沽 经 运营 成 本 ， 而 且 还 可 能 妹 雪 地 球 。ps: 云 计算 可 能 会 币 底 改变 人 类 的 生活 方式 。 
SURO a 


eens 通信 人 :| {10003,10070} 
开始 时 间 :| 2013-03-01 23:33:08 
分 析 结 果 查 看 些 束 时 间 : 2013-03-02 02:31:10 
通信 地 点 :| 北京 市 虎 坊 桥 西 站 
通信 内 容 : 也 钢铁 使 3 今 将 高 科技 运用 地 淋漓 至 尽 ， 其 中 的 Google 元 素 更 是 发 挥 得 怡 到 好 处， 同时 也 见识 到 了 甲骨 六 
的 云 计 算 。 云 计算 将 不 人 能 吏 帮 助 企 业 减 轻 运 营 成 本 ， 而 且 还 可 能 邱 执 地 球 。ps: 云 计算 可 能 会 彻底 陈 变 人 染 的 生活 方式 。 
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图 11-11 查看 分 析 结 
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12.1 实验 目的 


1) 了 解 云 计算 查找 的 原理 。 
2) Sq S | Ae IER | ARBER, 


12.2 ”实验 设备 
硬件 ， 云 计算 一 体 机 、PC， 
12.3 ”实验 内 容 


1) 操作 云图 书馆 项 目 。 
2) 通过 索引 的 方式 查找 更 多 的 图 书 。 


12.4 实验 原理 


实验 主要 源码 : 
1. 上 传 和 索引 
public class BooksIndexMRThread extends Thread | 


/ x * 
* 该 类 为 一 个 线程 类 ,每 一 个 用 户 提交 一 个 课本 文件 后 ,系统 会 为 其 分 
该 线程 执行 的 主要 任务 是 向 Hadoop 集群 提交 一 个 建立 索引 文件 的 任务 


* Hadoop 接受 到 该 任务 时 会 开始 对 文件 进行 分 词 ,并 把 分 词 结 采 写 和 人 到 索引 文件 里 


* / 

private static final byte| |lock = new bytel 0 | ; 

private static final Configuration conf = HadoopConfiguration 
. getConfiguration ( ) ; 

private Book book = null ; 


public BooksIndexMRThread ( Book book ) | 
this. book = book ; 
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// 线 程 启动 方法 , 当 线 程 开 始 执行 时 ,首先 局 动 该 方法 
public void run( ) | 
try | 
index ( book ) ; 
| catch ( IOException e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 
| catch ( InterruptedException e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 
| catch ( ClassNotFoundException e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 


public static class BooksMapper extends 
Mapper < LongWritable , Text , Null Writable , NulIWritable > | 
private static final Analyzer analyzer = new MaxWordAnalyzer( ) ; 
private IndexWriterConfig 1wc = null ; 
private RAMDirectory ramDir = null ; 
private IndexWriter writer = null ; 


private StringBuffer sb = null ; 


publie static enum Counters | 


ROWS 


// 每 一 个 map 任务 执行 开始 前 的 准备 工作 ,这 里 主要 是 生成 了 建立 索引 的 对 
Be, ,并 对 其 进行 初始 化 配置 
protected void setup( Context context ) | 
sb = new StringBuffer( ) ; 
iwc = new Index WriterConfig( Version. LUCENE_36, analyzer) ; 
iwc. setOpenMode( OpenMode. CREATE) ; 
iwc. setRAMBufferSizeMB( 128. 0) ; 
iwc. setMaxBufferedDoes ( 1000) ; 
ramDir = new RAMDirectory( ) ; 


try | 
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writer = new IndexWriter( ramDir,iwc ) ; 
| catch ( IOException e) | 

//TODO Auto-generated catch block 

e. printStackTrace( ) ; 


// X] map 分 配 到 的 任务 文件 进行 谈 取 操作 ,每 谈 取 一 个 都 要 进行 分 词 , 然 后 把 
分 词 结 采 写 和 人 到 内 存 中 , 当 内 存 存 储 到 一 定 程度 ,刷新 到 磁盘 上 
public void map( LongWritable key , Text value , Context context) 
throws IOException , InterruptedException | 
sb. append( value. toString( ) ) ; 
context. getCounter( Counters. ROWS). increment( 1 ) ; 
if( context. getCounter( Counters. ROWS). getValue( ) 96100 220) | 
if( sb. toString( )! = null&&! ". equals( sb. toString( ) ) ) | 
Document doc = new Document( ) ; 
doc. add( new Field (" name ", context. getConfiguration( ). get( 
" bookname ") , Store. YES, Index. ANALYZED) ) ; 
doc. add( new Field(" author ", context. getConfiguration( ). get( 
" bookauthor ") , Store. YES, Index. ANALYZED) ) ; 
doc. add( new Field (" publishdate ", context. getConfiguration( ) 
. get(" publishdate ") , Store. YES, Index. ANALYZED) ) ; 
doc. add( new Field(" sections ", sb. toString( ) , Store. YES, 
Index. ANALYZED) ) ; 
writer. addDocument( doc) ; 


sb = new StringBuffer( ) ; 


// 每 一 个 任务 执行 完成 后 的 清理 工作 map 任务 完成 的 索引 数据 块 会 以 文件 来 
的 目录 存在 于 本 地 磁盘 上 ,在 map 任务 结束 时 会 把 这 些 索 引 数 据 块 写 回 到 HDFS 上 ,最 后 让 
master 来 进行 最 后 的 合并 工作 


protected void cleanup( Context context ) | 


try | 
if( sb. toString( ) ! = null) | 


Document doc = new Document( ) ; 


doc. add( new Field(" name ", context. getConfiguration( ). get ( 
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" bookname ") , Store. YES, Index. ANALYZED) ) ; 
doc. add ( new Field(" author ", context. getConfiguration( ). get( 
" bookauthor ") , Store. YES, Index. ANALYZED) ) ; 
doc. add( new Field (" publishdate ", context. getConfiguration( ) 
. get(" publishdate ") , Store. YES, Index. ANALYZED) ) ; 
doc. add( new Field(" sections ", sb. toString( ) , Store. YES, 
Index. ANALYZED) ) ; 
writer. addDocument( doc ) ; 
| 
writer. close( ) ; 
| catch( CorruptIndexException el ) | 
//TODO Auto-generated catch block 
el. printStackTrace( ) ; 
| catch( IOException el ) | 
//TODO Auto-generated catch block 
el. printStackTrace( ) ; 


long timeMillis = System. currentTimeMillis( ) ; 
/7 开始 谈 取 本 地 的 磁盘 索引 文件 目录 ,然后 通过 文件 流 的 方式 把 这 些 文 件 


String outStr = "/hadoop/booksindex/" + timeMillis ; 
File indexDir = new File( outStr) ; 
IndexWriterConfig fsIndexWriterConfig = new IndexWriterConfig ( 
Version. LUCENE_36, analyzer ) ; 
fsIndexWriterConfig. setOpenMode ( OpenMode. CREATE OR, APPEND) ; 
fsIndexWriterConfig. setRAMBufferSizeMB ( 128. 0) ; 
fsIndexWriterConfig. setMaxBufferedDocs ( 1000 ) ; 
Directory directory ; 
try | 
directory = FSDirectory. open( indexDir) ; 
IndexWriter fsIndexWriter = new IndexWriter( directory , 
fsIndexWriterConfig ) ; 
// 把 内 存 中 的 索引 库 写 到 文件 系统 中 
fsIndex Writer. addIndexes(ramDir) ; 
fsIndexWriter. close( ) ; 


FileSystem hdfs = FileSystem. get( context. getConfiguration( ) ) ; 
FileSystem local = FileSystem. getLocal ( context 
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. getConfiguration( ) ) ; 
Path inPath = new Path( outStr) ; 
String hdfsPath ="/tomcat/experiment/librarycloud/indexes/" 
t timeMillis + "-lock "+'/"; 
FileStatus| | inputFiles = local. listStatus( inPath ) ; 
for( FileStatus ele: inputFiles) | 
FSDataOutputStream fsdos = hdfs. create( new Path ( hdfsPath 
+ ele. getPath( ). getName( ) ) ) ; 
FSDatalnputStream fsdis = local. open( ele. getPath( ) ) ; 
byte| |buffer 2 new byte| 256 | ; 
int readByte =0; 
while( ( readByte = fsdis. read( buffer) ) >0) | 
fsdos. write ( buffer ,0 , readByte ) ; 
| 
fsdis. close( ) ; 
fsdos. close( ) ; 
| 
local. delete ( inPath , true ) ; 
hdfs. rename( new Path( hdfsPath ) , new Path( 
"/tomcat/ experiment/ librarycloud/indexes/" + timeMillis +"/") ) ; 
| catch ( IOException e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 


// 配 置 job 相关 信息 ,然后 提交 给 Hadoop 集群 ,让 其 开始 执行 该 job 
private void index( Book book) throwsIOException , InterruptedException , 
ClassNotFoundException | 

conf. set(" bookname ", book. getName( ) ) ; 

conf. set(" bookauthor ", book. getAuthor( ) ) ; 

conf. set(" publishdate ", book. getPublishDate( ) ) ; 

// 开 始 配置 job 信息 

Job job = new Job( conf," Indexing Book Data") ; 

job. setJarByClass ( BooksIndexMR Thread. class) ; 

String perfix ="/tomcat/experiment/librarycloud/books/" 

+ book. getAuthor( ) +"/" + book. getName( ) ; 
Path in = new Path( perfix +". book") ; 
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Path out = new Path( perfix + "-result ") ; 
FileInputFormat. setInputPaths( job ,in ; 
FileOutputFormat. setOutputPath( job, out ) ; 


job. setMapperClass ( BooksMapper. class ) ; 
// job. setReducerClass( null) ; 


job. setInputFormatClass ( TextInputFormat. class) ; 
job. setOutputFormatClass ( NullOutputFormat. class) ; 
job. setOutputKeyClass ( NullWritable. class ) ; 

job. setOutputValueClass ( NullWritable. class) ; 


job. setNumReduceTasks (0) ;// 1X reduce 任务 

// 配 置 job 信息 完成 

// 提 交 job 到 Hadoop 集群 

job. waitForCompletion( true ) ; 

//master 服务 端 开 始 从 HDFS iE BE—~S map 任务 产生 的 数据 块 , 人 然后 
往 本 地 的 索引 目录 下 合并 

// 由 于 是 多 线程 的 操作 ,在 合并 的 同时 可 能 会 是 多 个 线程 对 本 地 目录 进 
行 操作 ,以 免 文 件 产生 错误 

// 对 本 地 的 文件 目录 加 锁 ,在 每 一 个 时 刻 只 允许 一 个 线程 对 其 进行 索引 


MPFR A 
synchronized ( lock ) | 
FileSystem hdfs = FileSystem. get( conf) ; 
FileSystem local = FileSystem. getLocal( conf) ; 
Path indexes = new Path("/tomcat/experiment/librarycloud/ indexes ") ; 
FileStatus| | list = hdfs. listStatus (indexes ) ; 
for( FileStatus fs; list) | 
if( fs. isDir( ) &&! fs. getPath( ). getName( ). contains(" lock ") ) | 
FileStatus| | indexList = hdfs. listStatus( fs. getPath( ) ) ; 
for( FileStatus ele : indexList ) | 
FSDatalnputStream fsdis = hdfs. open( ele. getPath( ) ) ; 
FSDataOutputStream fsdos = local. create( new Path( 
"/ hadoop/indexes/tmp/" + fs. getPath( ). getName( ) 
+"/" + ele. getPath( ). getName( ) ) ) ; 
byte| | buffer = new byte| 256 | ; 
int readByte 20; 
while( ( readByte = fsdis. read( buffer) ) >0) | 
fsdos. write( buffer ,0 , readByte ) ; 
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| 
fsdis. close( ) ; 


fsdos. close( ) ; 


|] 
hdfs. delete( fs. getPath( ) ,true) ; 


| 
File indexDir = new File("/hadoop/indexes/tmp ") ; 
Analyzer analyzer = new MaxWordAnalyzer( ) ; 
IndexWriterConfig fsIndexWriterConfig = new IndexWriterConfig( 
Version. LUCENE 36 , analyzer ) ; 
fsIndexWriterConfig. setOpenMode ( OpenMode. CREATE. OR. APPEND) ; 
fsIndexWriterConfig. setRAMBufferSizeMB ( 128. 0) ; 
fsIndexWriterConfig. setMaxBufferedDocs ( 1000) ; 
Directory directory = FSDirectory. open( new File( 
"/ hadoop/indexes/index ") ) ; 
File| JarrayFile = indexDir. listFiles( ) ; 
for( File file ; arrayFile ) | 
if( file. isDirectory ( ) ) | 
IndexWriter fsIndexWriter = new IndexWriter( directory , 
fsIndexWriterConfig ) ; 
// 把 内 存 中 的 索引 库 写 到 文件 系统 中 
Directory tmp = FSDirectory. open( file) ; 


fsIndex Writer. addIndexes( tmp) ; 
fsIndex Writer. close( ) ; 


tmp. close( ) ; 
deleteDir( file) ; 


// 删 除 临 时 的 索引 文件 目录 
private void deleteDir( File dir) | 
if( dir. isDirectory( ) ) | 
File| | children = dir. listFiles( ) ; 
for( File ele: children) | 
deleteDir( ele) ; 
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dir. delete( ) ; 


| 
2. 检索 文件 
public class RetrievalBooksServlet extends HttpServlet | 
private static final long serialVersionUID =1L; 
private static final Analyzer analyzer = newMaxWordAnalyzer( ) ; 


private static final File index = new File("/hadoop/indexes/ index ") ; 


public RetrievalBooksServlet ( ) | 


| 


J * 
* MD Se vin er VETERI AT OS, WS Arim A BTA Ta, BE BUTS LBS RECTE , 0. 
AW BY A 25 ARR E] IR EP ig 
* / 
public void doGet( HttpServletRequest request , HttpServletResponse response ) 


throws ServletException , IOException | 
//request. setCharacterEncoding( Charset. defaultCharset( ). toString( ) ) ; 
request. setCharacterEncoding(" utf- 8 ") ; 
UserBean ub = ( UserBean ) request. getSession( ). getAttribute( " user ") ; 
int pageNumber = 1 ; 
String pageNumberStr = request. getParameter(" pageNumber ") ; 
if( pageNumberStr! = null&&! pageNumberStr. equals( ") ) | 
pageNumber = Integer. parseInt ( pageNumberStr ) ; 
| 
if(ub = = null) | 
request. getRequestDispatcher( "/login. jsp"). forward ( request, 
response ) ; 
| else | 
if( ! index. exists( ) ) | 
request. setAttribute( " result ", null) ; 
request. getRequestDispatcher( "/error. jsp? result = 索引 文件 不 存在 ! ") 
. forward ( request , response ) ; 
| else | 
// BRIE Pom HY ALTA OT e 
Book book = new Book( ) ; 


book. setName (new String( request. getParameter("name"). getBytes ( 


193 


A 第 3 篇 项 目 实 训 部 分 A 


" js0-8859-1 ") ,"UTF-8 ") ) ; 
book. setAuthor( new String( request. getParameter(" author ") 
. getBytes(" 1s0-8859-1 ") ," UTF-8 ")) ; 
book. setPublishDate ( new String( request. getParameter( 
" publishdate "). getBytes(" is0-8859-1 ") ,"UTF-8 ')) ; 
book. setSection ( new String( request. getParameter( " section ") 
. getBytes(" 1s0-8859-1 ") ,"UTF-8") ) ; 
request. setAttribute( " book ", book ) ; 
List < Book > list = null ; 


try | 
// 根 据 查 询 对 象 在 索引 文件 里 进行 相关 查询 ,把 结果 封 


疫 到 一 个 list 当中 ,返回 给 客户 并 
list = retrievalBooks( request , book , pageNumber) ; 
request. setAttribute( " entry List ", list) ; 
if( list. size( ) 50) | 
request. setAttribute( " result ",™) ; 
| else | 
request. setAttribute( " result ", null) ; 
| 
request. getRequestDispatcher( "/retrievalbooks. jsp ") 
. forward ( request , response ) ; 
| catch( Exception e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 
request. getRequestDispatcher( 


"error. jsp? result = R RRI tH XL e$ fei. ") 


. forward ( request , response ) ; 


| 


| 
//2012-12 


//AVG | Temp ( max; 21.760002°C/min; 13.001612°C ); Humidity 
(51. 9754996 ) ; WSP(21. 388714m/s) | 


| 


// E iy S| CPE TE , MR S CE se index 文件 ,然后 根据 客户 端 提交 的 
条 件 进行 查询 ,把 符合 结果 的 数据 返回 
private List < Book > retrievalBooks( HttpServletRequest request ,Book quote , 


int pageNumber ) throws Exception | 
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List < String > list = new ArrayList < String > ( ) ; 

String keywords ="; 

if (quote. gettName()! =null&&! ™. equals( quote. getName( ) ) ) | 
list. add(" name ") ; 


keywords + = quote. getName( ) +","; 
| 
if( quote. getAuthor( )! -null&&! ™. equals( quote. getAuthor( ) ) ) | 
list. add (" author ") ; 
keywords + = quote. getAuthor( ) +","; 
j 
if( quote. getPublishDate( )! = null 
&&! ". equals( quote. getPublishDate( ) ) ) | 
list. add (" publishdate ") ; 
keywords + = quote. getPublishDate( ) +","; 
| 
if( quote. getSection( ) ! =null&&! ™. equals( quote. getSection( ) ) ) | 
list. add(" sections ") ; 
keywords + = quote. getSection( ) ; 
| 
String| |fieldArray = (String| | ) list. toArray( new String| list. size( ) | ) ; 
String| | keywordArray = keywords. split(",") ; 
BooleanQuery bQuery = new BooleanQuery( ) ;// 组 合 查 询 
BooleanClause. Occur| | flags = new BooleanClause. Occur] list. size( ) | ; 
for(int index =0; index < flags. length; index + + ) | 
flags| index | = BooleanClause. Occur. MUST; 
| 
Query query = MultiFieldQueryParser. parse( Version. LUCENE_36, 
keywordArray , fieldArray , flags , analyzer) ; 
bQuery. add( query , BooleanClause. Occur. MUST) ; 


// 获 取 访 问 索 引 的 接口 ,进行 搜索 
Directory directory = FSDirectory. open (index ) ; 
IndexReader indexReader = IndexReader. open( directory ) ; 


IndexSearcher indexSearcher = new IndexSearcher( indexReader ) ; 


int pageSize = 10; 
int start = ( pageNumber-1) * pageSize ; 
int hm = start + pageSize ; 


request. setAttribute(" pageSize ", pageSize ) ; 
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request. setAttribute(" pageNumber ", pageNumber) ; 


//TopDoes 搜索 返回 的 结 


TopScoreDocCollector res = TopScoreDocCollector. create (hm, false ) ; 


indexSearcher. search ( bQuery ,res) ;// Rig lA 100 条 记录 
TopDocs tds = res. topDocs( start , pageSize ) ; 


int totalCount = res. getTotalHits( ) ; 

request. setAttribute(" totalPosts ", totalCount ) ; 

int pages = ( totalCount-1 ) /pageSize +1;// 计 算 总 页 数 
request. setAttribute(" totalPages ", pages ) ; 

System. out. println( "搜索 到 的 结果 总 数量 为 :"+totalCount) ; 
System. out. println ("EA ICN :" + pages) ; 


ScoreDoc| ] scoreDocs = tds. scoreDocs ;// 搜 索 的 结果 列表 
System. out. println( scoreDocs. length ) ; 
// AE sten ,使 搜索 的 关键 词 突出 显示 


Formatter formatter = new SimpleHTMLFormatter("< font color = fed > ", 


"</font >"); 
Scorer fragmentScore = new QueryScorer( bQuery ) ; 


Highlighter highlighter = new Highlighter( formatter , fragmentScore ) ; 


Fragmenter fragmenter = new SimpleFragmenter( 100) ; 


highlighter. setTextFragmenter( fragmenter ) ; 


List < Book > books = new ArrayList < Book > ( ) ; 
// 把 搜索 结果 取出 放 和 人 到 集合 中 ,并 对 关键 词 进行 高 亮 显示 
for( ScoreDoc scoreDoc :scoreDocs ) } 
int docID = scoreDoc. doc;// 当 前 结果 的 文档 编号 
Document document = indexSearcher. doc( docID ) ; 
Book book = new Book( ) ; 


String name = document. get(" name ") ; 


String highlighterName = highlighter. getBestFragment( analyzer, 
" name ", name ) ; 
if( highlighterName = = null) | 
highlighterName = name; 


| 


book. setName( highlighterName ) ; 


String author = document. get(" author ") ; 
String highlighterAuthor = highlighter. getBestFragment ( analyzer , 
" author ", author ) ; 
if( highlighterAuthor = = null) | 
highlighterAuthor = author; 


| 
book. setAuthor( highlighterAuthor) ; 


String publishdate = document. get(" publishdate ") ; 
String highlighterPublishdate = highlighter. getBestFragment( 
analyzer ," publishdate ", publishdate ) ; 
if( highlighterPublishdate = = null) | 
highlighterPublishdate 2 publishdate ; 


| 
book. setPublishDate( highlighterPublishdate ) ; 


String section = document. get(" sections ") ; 
String highlighterSections = highlighter. getBestFragment( analyzer , 


" sections ", section ) ; 


if( highlighterSections = = null) | 
if( section. length( ) > 150) | 
highlighterSections = section. substring( 0,150) ; 
| else | 


highlighterSections = section ; 


| 


book. setSection( highlighterSections ) ; 


books. add ( book ) ; 
| 


indexReader. close( ) ; 
indexSearcher. close( ) ; 


return books ; 
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12.5 ER 


第 二 个 实验 项 目 : 图 书馆 图 书 管理 。 
1) 进入 后 是 一 个 操作 界面 ， 如 图 12-1 所 示 。 


B. 书馆 图 书 管理 系统 


DE HERRI 
4 PETË 
PROA ta 
作者 : 
出 版 日 期 
书本 文件 : A 《编码 格式 : UTF-8) 


-er EE 


Haare © 2013 Iba Saha 


图 12-1 书籍 上 传 
2) 这 个 看 着 很 伺 单 ， 其 实 后 台 比 较 复 淋 ， 因 为 涉及 了 反问 索引 技术 ， 这 个 项 目 可 以 让 
所 有 的 学 生 上 传 书 籍 ， 然 后 服务 各 就 会 帮助 上 传 的 书籍 进行 索引 ， 这 里 先 简 单 上 传 一 个 文本 
文件 ， 如 图 12-2 所 示 。 


toO pin 
+ PETH 

;o HUBS 
书籍 检索 He: Mths 


作者 : 2S 
出 版 日 期 :，2013-05-20 


书本 文件 : C:\Users\hadoop\Desktop\liz xj v; 《编码 格式 : UTF-8) 


m sz 


HARA © 2013 LRR RAE AA 


图 12-2 ”编辑 上 传 书籍 信息 
3) 点 击 上 传 文件 ， 如 图 12-3 所 示 。 
4) UPAERTUESHES, 如 图 12-4 所 示 。 
5) 上 传 完毕 后 进行 检索 ， 如 图 12-5 所 示 。 


ÉP 计算 安 训 项 上 1 


作业 任务 已 成 功 提交 ! 


索引 作业 已 成 功 提交 ,请 等 待 后 台 操 作 , 精 后 查 词 ! 
点 击 下 面馆 接 浏览 MapReduca 执 行进 度 
http://master:50030 

返回 上 一 层 页 面 
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图 12-3 任务 提交 成 功 


Cluster Summary (Heap Size is 54.5 MB/888.94 MB) 
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Scheduling Information 


Queue Name | State | Scheduling Information 
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Filter (Jobid, Priority, User, Name) 
Example: 'user:snith 3200 will filter by “anith’ only in the user field and '3200' in all fields 
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图 12-4 浏览 运行 任务 
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图 12-5 检索 书籍 
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6) 点击“ 查询” 按钮 就 会 找到 有 这 个 词语 的 书籍 和 相关 信息 ， 如 图 12-6 所 示 。 


f, TE ERES 
+ PETE 
PELRA T: 
作者 : 
出 版 日 期 : 
AY: RAPE 
' 
` 
soe " 
re 
- 
- - n E 


图 12-6 查看 检索 
7) 多 试验 几 次 ,这 里 把 一 篇 文章 分 成 很 多 小 的 章 m 行 一 草 ， 所 以 当 检 索 作 者 
时 会 检索 出 很 多 ， 如 图 12-7 所 示 。 


B... 书 管理 系统 
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出 版 日 期 : 


图 12-7 查看 TAA A Fl zh m. = 
8) 这 个 项 目 涉及 的 内 容 很 多 ， 还 有 分 词 索引 怎 么 合并 之 类 的 内 容 ， 大 家 可 以 好 好 分 析 
探讨 一 下 
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13.1 实验 目的 


1) 了 解 物 联网 和 云 计 算 的 融合 技术 。 
2) 实现 用 云 计算 的 技术 提供 更 多 党 甘地 球 的 项 目 。 


13.2 实验 设备 
硬件 ， 云 计算 一 体 机 、PC， 
13.3 ”实验 内 容 


1) 操作 快递 云 项 目 。 
2) 更改 源码 看 是 否 可 以 改变 功能 。 


13.4 实验 原理 


实验 主要 源码 : 
public class ExpressParsingThread extends Thread | 


Je 


* 此 类 是 一 个 线程 类 , SARS ditm 3-168 EU A CDS OC JR , 2 PE , FP 


[=] Hadoop 集群 提交 分 析 数 据 的 job 任务 


* Hadoop 集群 会 根据 快递 数据 文件 和 快递 人 员 的 信息 来 启动 Map/ Reduce 任务 
x 分 配 快 递 给 最 近 的 快递 人 员 ,最 后 把 产生 的 结果 信息 写 人 到 HDFS 上 


*/ 

private static final longserialVersionUID =1L; 

private static final Configuration conf = HadoopConfiguration 
. getConfiguration ( ) ; 


private static booleanisLaunch = false ; 


private static final Map «String, GPRSBean > map = new HashMap < String, GPRSBean > ( ) ; 


private static final byte| | lock = new byte| 0 | ; 


private static final Map < String, ArrayList < String > > collect = new HashMap < String, 


ArrayList < String > > ( ); 
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private staticFileSystem fs = null; 
private static Path lockFile = new Path ( 


"/tomcat/ experiment/ expresscloud/results/. lock ") ; 


jf 5c 
* map 任务 ,负责 从 HDFS 上 读 取 快递 的 数据 文件 , 读 取 到 一 行 数据 ,然后 届 历 所 有 
的 快递 人 员 信 息 
* 把 此 快递 分 配给 离 这 个 快递 最 近 的 一 个 快递 人 员 
public static classExpressMapper extends 
Mapper < LongWritable , Text , Null Writable , Null Writable > | 
public static enum Counters | 


ROWS 


// JAH map 任务 之 前 的 数据 准备 工作 
protected void setup( Context context ) | 
try | 
synchronized ( lock ) | 
fs = FileSystem. get( context. getConfiguration( ) ) ; 
if( map. size( ) = 20) | 
Path path = new Path( 
"/tomcat/ experiment/ expresscloud/ courier/ courier. txt ") ; 
FSDatalnputStream fsdis = fs. open( path) ; 
BufferedReader br = new BufferedReader( 
new InputStreamReader( fsdis ," UTF-8 ") ) ; 
String line = null; 
while( ( line = br. readLine( ) )! = null) | 
String| | array = line. split("\t") ; 
try | 
if( array. length = =2) | 
GPRSBean gprsb = new GPRSBean( ) ; 
gprsb. setLongitude ( Float 
. parseFloat( (array| 1 ]. split(",") [0] ))); 
gprsb. setLatitude( Float 
. parseFloat( (array| 1 |. split(",")[1]))); 
map. put( array | 0 | ,gprsb) ; 
| 


| catch( Exception e) | 
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e. printStackTrace( ) ; 


| 


| catch ( Exception e) | 
e. printStackTrace( ) ; 


// OS Wr eh fei E, , 逐 行 谈 取 数据 文件 ,一行 分 析 一 次 
public void map( LongWritable key , Text value, Context context) 
throws IOException , InterruptedException | 
String| | array = value. toString( ). split("\t") ; 


if( array. length = =4) | 
try | 
String| | ll = array| 2 |. substring( 
array | 2 |. indexOf ("2825 HE .") + "2825 HE". length( ) ) 


. split(",") ; 
float longitude = Float. parseFloat( ll[ 0 | ) ; 
float latitude = Float. parseFloat(ll| 1 | ) ; 
String result = null ; 
double distance = -1 ; 
for( Map. Entry < String, GPRSBean > me ; map. entrySet( ) ) | 
if( distance = = -1 ) | 
distance = Math. sqrt( Math. pow( ( longitude-me 
. getValue( ). getLongitude( ) ) ,2) 
* Math. pow( latitude 
-me. getValue( ). getLatitude( ) ,2) ) ; 
result = me. getKey( ) ; 
| else if( Math. sqrt( Math. pow( ( longitude-me 
. getValue( ). getLongitude( ) ) ,2) 
+ Math. pow( latitude 
-me. getValue( ). getLatitude( ) ,2) ) < 
distance ) | 


result = me. getKey( ) ; 


ate 
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if( collect. containsKey(result) ) | 
collect. get( result). add(array| 1 | +"\t"+ array[3]) ; 
| else | 
collect. put( result, new ArrayList < String > ( ) ) ; 
collect. get( result). add(array| 1 | +"\t"+ array[3]) ; 
| 
context. getCounter( Counters. ROWS). increment( 1 ) ; 
if( context. getCounter( Counters. ROWS). getValue( ) 96100 220) | 
/ / /tomcat/ experiment/ expresscloud/ results 
synchronized( lock ) | 
while( fs. exists( lockFile) ) | 
Thread. sleep( 1000) ; 
| 
FSDataOutputStream fsdos = fs. create ( lockFile ) ; 
fsdos. write("" . getBytes( ) ) ; 
fsdos. close( ) ; 
for( Map. Entry < String, ArrayList < String > > me: collect 
. entrySet( ) ) | 
Path user = new Path( 
"/tomcat/ experiment/ expresscloud/ results/" 
+ me. getKey( ) +'/" 
* System. currentTimeMillis( ) 
+". order"); 
fsdos = fs. create( user, true ) ; 
for( String ele: me. getValue( ) ) | 
fsdos. write( (ele + n"). getBytes( ) ) ; 


| 
fsdos. close( ) ; 


| 


collect. clear( ) ; 


| 


| catch ( Exception e) | 
e. printStackTrace( ) ; 
throw new IOException( e) ; 
| finally | 
if( fs. exists( lockFile) ) | 
fs. delete( lockFile, false ) ; 
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// 清 理工 作 , 主 要 是 把 此 map 任务 产生 的 结果 写 人 到 HDFS 上 ,在 写 入 的 过 程 
中 ,会 产生 同步 锁 
protected void cleanup( Context context ) | 
if( collect. size( ) > 0) | 
synchronized ( lock ) | 
try | 
while( fs. exists( lockFile) ) | 
Thread. sleep ( 1000) ; 
| 
FSDataOutputStream fsdos = fs. create( lockFile ) ; 
fsdos. write(" . getBytes( ) ) ; 
fsdos. close( ) ; 
for( Map. Entry < String, ArrayList < String > > me collect 
. entrySet( ) ) | 
Path user = new Path( 


"/tomcat/ experiment/ expresscloud/ results/" 
+ me. getKey( ) +'/" 
+ System. currentTimeMillis( ) 
+". order"); 
fsdos = fs. create( user, true ) ; 
for( String ele: me. getValue( ) ) | 
fsdos. write( ( ele +"\n"). getBytes( ) ) ; 


| 
fsdos. close( ) ; 


| 
collect. clear( ) ; 
| catch ( IOExceptione ) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 
| catch( InterruptedException e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 
|! finally | 
try | 
if( fs. exists( lockFile) ) | 
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fs. delete( lockFile ,false ) ; 
| 
| catch( IOException e) | 
// TODO Auto-generated catch block 
e. printStackTrace( ) ; 


// 线 程 的 局 动 方法 ,该 线程 启动 时 首先 调用 此 方法 来 启动 所 有 的 操作 
public void run( ) | 
isLaunch = true; 
while (isLaunch ) | 
try | 
FileSystem fs = FileSystem. get( conf ) ; 
Path courier = new Path( 
"/tomcat/ experiment/ expresscloud/ courier/ courier. txt") ; 
if( fs. exists( courier ) ) | 
Path data = new Path( 
"/tomcat/ experiment/ expresscloud/uploaddata ") ; 
FileStatus| | dataes = fs. listStatus( data) ; 
if( dataes. length » 0) | 
Path out = new Path( 
"/tomcat/ experiment/ expresscloud/ mapreduce ") ; 
if( fs. exists( out) ) | 
fs. delete ( out , true ) ; 
| 
// 初 始 化 job 的 相关 信息 
Job job = new Job( conf," Parsing Express Data") ; 
job. setJarByClass ( ExpressParsingThread. class) ; 
FileInputFormat. setInputPaths( job , data) ; 
FileOutputFormat. setOutputPath ( job out ) ; 


job. setMapperClass ( ExpressMapper. class) ; 
// job. setReducerClass ( ExpressReducer. class ) ; 
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job. setInputFormatClass ( TextInputFormat. class) ; 
job. setOutputFormatClass ( NullOutputFormat. class ) ; 
job. setOutputKeyClass ( NullWritable. class ) ; 
job. setOutputValueClass ( NullWritable. class) ; 
job. setNumReduceTasks (0) ; 
// FEX job 到 Hadoop 集群 上 ,并 让 其 开始 执行 此 任务 
job. waitForCompletion( true ) ; 
for( FileStatus ele; dataes ) | 
fs. delete( ele. getPath( ) , true) ; 


| 


| catch( Exception e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 


| 

try | 
Thread. sleep(60 * 1000L) ; 

| catch( InterruptedException e) | 
//TODO Auto-generated catch block 
e. printStackTrace( ) ; 


public void termination( ) | 


isLaunch = false; 


13.5 VR 


第 四 个 实验 项 目 : 智能 EMS 速递 云 。 

1) 进入 之 后 是 操作 界面 ， 如 图 13-1 所 示 。 

2) 这 个 项 目 是 在 Hadoop 上 又 加 了 一 层 ， 点 击 “ 局 动 智 能 分 析 ” 后， 就 不 需要 再 管 了 ， 
集群 会 一 直 分 析 数 据 ， 这 个 期 间 可 以 随时 上 传 数据 进行 分 析 。 

3) 这 里 提供 了 实例 下 载 ， 如 图 13-2 所 示 。 

4) 这 里 面 有 很 多 参数 ， 比 如 快递 发 出 的 时 间 、 地 址 是 哪里 、 经 纬度 是 多 少 、 和 备注， 如 
图 13-3 所 示 。 
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.… “智能 EMS 速 递 云 系 统 
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点 击 下 载 示例 文件 : [ni] 


版 要 所 有 名 2013 北京 斑 步 至 伟 科 技 公 司 


图 13-1. 示例 文件 下 载 
© iT | Xx J| 


从 网 址 : http:;//master:8080/education/downloadexpress?-96EA96B8968B9 
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图 13-3 ”查看 示例 文件 内 容 
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5) 先 更 改 一 条 快递 进行 测试 . 


地 点 : 北京 市 东 郊 火车 站 经 纬度 : 1.98128, 1.90178 备注 : 如 果 是 周 六 日 ， 请 送 到 保 
安 处 ， 在 三 楼 305, 


6) BIC), WK 13-4 所 示 。 


… 智能 EMS 速 递 云 系统 
二 示例 文件 T 载 
tocum Lis 
>» 启动 智能 分 析 点 击 启动 快件 分 析 作 业 : 
加 ”停止 智能 分 村 
< 我 的 GPS 

A 我 的 快递 


WARM AS 2013 IES heal 


图 13-4 局 动 云 计 算 
7) 用 admin 用户 登 录 ， 改 一 下 自己 的 GPS 位 置信 息 ， 如 图 13-5 Pra. 


-智能 EMS 速 递 云 系统 
二 示例 交 件 下 载 
UL E 


”启动 智能 分 村 当前 经 度 : | 1.90000 


| XBlin: 116.33533) 
图 ”停止 智能 分 村 


当前 纬度 : | 1.90000 


| (5/20: 39.20567) 
«4 TüfiGPs 


更 新 
EIN + 


WARM AS 2013 kmni E hel 


图 13-5 设置 自己 的 GPS 位 置信 息 
8) 更 新 之 后 ， 可 以 在 后 人 台 查 看 到 位 置信 息 的 更 改 ， 如 图 13-6 所 示 。 
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File: /tomcat/experiment/expresscloud/courier/courier.txt 


Goto : ftomcat/experi ment/expre fao) 


Go back to dir listing 
Advanced view/download options 


xiaoshang 110.97986,50.34567 


admin 1.9,1.9 


13-6 后台 查看 GPS 位置 信息 
9) 然后 进行 快递 数据 上 传 ， 如 图 13-7 所 示 。 


PA 智能 EMS 速 递 云 系统 


数据 文件 名 : | 浏览 | 


图 13-7 快递 数据 上 传 


10) 由 于 数据 比较 多 ， 所 以 采用 文件 上 传 ， 如 图 13-8 所 示 。 


e. 智能 EMS 速 递 云 系统 
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数据 文件 各 : | C:\users\hadoop\Desktop\exp, 浏览 | 


图 13-8 选择 上 传 文件 
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11) 比如 目 己 是 一 个 快递 员 ， 如 图 13-9 所 示 。 


ae 2 a a n Lx 


9 ES Biss es 了 master.50030/johtracker.- 其 E TAS x à 三 | 


|e > X E master:50030/jobtracker.jsp zi mrs 


IET ESL same (m| | 否 | [wan] x 


Quick Links < 
E 
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| Cluster Summary (Heap Size is 54.5 MB/888.94 MB) 
al 
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Task 


Reduce Reduce z 
Slots E Slots ER Capacity 


4 2 2 2. 00 


Avg. 
Tasks/Node 


Total Occupied 
Submissions Hap Slots 


Luz EGO Information 


c | Queue Name | State Scheduling Information | 


default 


running | N/A | 


Filter (Jobid, Priority, User, Name) 


Example: 'user:smith 3200' will filter by 'smith' only in the user field and '3200' in all fields 


Running Jobs p 


要 EN Hap 5 Hap Haps Reduce % Reduce Reduces Job Scheduling Diagnostic 
Complete Total Completed Complete 


: Parsing 0. 00% 0. 00% 
job 201303231822 0004 | NORMAL mE me scc CL ae NA NA 


Completed Jobs 
T EN Hap % Hap Haps Reduce % Reduce Reduces Job Scheduling Diagnostic 
eae 100. 00% 100. 00% 
job 201303291822 0001 | NORMAL hadoop E eee 2 2 ea iL 1l NA NA 
g 2 A NA . 


| | ice 201303291822 0002 | NORMAL | hadoop [Parsing Meixin — [100.004 _ 100.008 — 


1 il N 


图 13-9 浏览 执行 任务 
12) 运行 完毕 后 ， 查 看 分 给 目 己 的 快递 信息 ， 搜 索 一 下 之 前 更 改 位 置 的 快递 信息 ， 如 
图 13-10 所 示 。 


A TORETE 
+, SRE LE 

M 系统 就 近 为 你 分 析出 185 个 订单 
人 ATEI 北京 市 东部 火车 站 备注 。 如 果 是 周 六 日 ， 请 送 到 保安 处 ， 在 三 楼 305。 
W 停止 智能 分 析 订单 2: 北京 市 保健 院 路 口 备注 : SARS, SRI 
2 HEPS ATES) 北京 市 西 东 村 备注 : 。 此 快递 地 点 没有 手机 信号 。 

一 一 一 订单 4 北京 市 香河 一 中 备注 : HEE EAT, BASE. 
rie ATEA 北京 市 香河 一 中 备注 ”快递 需要 收 件 人 在 你 面前 打开 ,确认 无 误 再 走 


iTS: 北京 市 虎 坊 桥 西 站 备注 : | 要 是 对 方 不 是 本 人 签收 , 请 让 对 方便 出 身份 证 , 留 下 证 件 号 码 。 
i786: 北京 市 焦 王 庄 北口 备注 : — 此 快递 不 着 急 ， 如 果 今 天 任务 没有 完成 ， 可 以 拖延 至 后 天 前 送 到 。 
条 单 7: 北京 市 犁 家 胡同 备注 : — 本 快递 是 需要 拆 包 验 货 。 

i728: 北京 市 大 安 山 村 西口 备注 : BALCH, WORE. ERAS. 

i789: AREER 备注 — 送 货 号 码 看 不 清楚 ， 核 对 住址 和 联系 人 。 

条 单 10:| 北京 市 何 家 坟 备注 : 。 如 果 办 公 室 没 人 ,请 条 P9990 

采 单 11:| 北京 市 建材 城 东 里 备注 : 要 是 对 方 不 是 本 人 签收 ， 请 让 对 方 章 出 身份 证 ， 留 下 证 件 号 码 。 
条 单 12: 北京 市 梁 各 庄 备注 : CBAR. ， 请 轻 齐 轻 放 。 


订单 13: 北京 市 小 务 备注 : 。 送 完 这 个 快递 ， 给 站 点 打 个 电话 ， 这 个 快递 需要 马上 报告 情况 。 
订单 14: 北京 市 北纬 路 备注 : 。 送 完 这 个 快递 ， 给 站 点 打 个 电话 ， 这 个 快递 需要 马上 报告 情况 。 


17315: 北京 市 万 源 路 备注 : 。 这 个 快递 尽量 避 开 晚 六 点 下 班 高 峰 期， 因为 送 货 节点 只 有 一 条 路 ， 不 好 走 。 HRRHOERO 2013 北京 斑 步 至 读 科 技 公司 


图 13-10 查看 分 配给 自己 的 快递 信息 
13) 经 查看 发 现 这 个 快递 已 经 发 给 目 己 了 ， 当 快递 员 很 多 时 ， 这 样 做 就 会 发 挥 出 很 大 
的 作用 。 
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